




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
GPU CUDA程序設(shè)計初步第2講
CUDA程序優(yōu)化
1計算流體力學(xué)與湍流培訓(xùn)系列教程李新亮中國科學(xué)院力學(xué)研究所
2021-07參考書目:CUDA官方網(wǎng)站資料:攀哲勇,《CUDA編程基礎(chǔ)與實踐》,清華大學(xué)出版社,2020ShaneCook著,蘇統(tǒng)華等譯《CUDA并行程序設(shè)計GPU編程指南》,機(jī)械工業(yè)出版社,2020示例: 計算兩個矩陣的乘積??
=
???
???????
=
????????????已知矩陣A和B均為N*N矩陣,
N=1024, 利用GPU計算矩陣C=A*B, 并分析結(jié)果的正確性及計算效率分析:啟動N*N個線程,每個線程計算一個Cij
點;在計算Cij
過程中,Bkj
涉及非連續(xù)數(shù)據(jù)的訪問,影響效率引入矩陣BT, 使得數(shù)據(jù)連續(xù)訪問?????
=
??????????????????
=
????????????#include<stdio.h>#include<stdlib.h>#include<time.h>void
matrix_mul_cpu(
int
n,
float
*a,
float*b,
float*c){for
(int
i
=
0;
i
<
n;
++i)for
(int
j=
0;
j
<
n;
++j){float
s
=
0.0;for
(int
k
=0;
k
<
n;
++k)s
+=
a[i*n
+
k]
*
b[k*n
+
j];
//A(i,k)*B(k,j)c[i*n
+
j]
=
s;}}
global
void
matrix_mul_gpu(int
n,
float
*a,
float*b,
float*c){const
int
bid=
blockIdx.x;const
int
tid
=threadIdx.x;float
s
=0.0;for
(int
k
=
0;
k
<
n;
++k)s
+=
a[bid*n
+
k]
*
b[k*n
+
tid];
//A(i,k)*B(k,j)c[bid*n+tid]
=
s;}CPU計算Cij(計算N*N個,全部元素)GPU計算Cij(每個線程只計算1個元素)B[]數(shù)組非連續(xù)訪問
global
voidtranspose(intn,float*b,float*bt){bt[blockIdx.x*n
+
threadIdx.x]
=
b[threadIdx.x*n
+
blockIdx.x];}
global
void
matrix_mul_gpu2(int
n,
float
*a,
float*b,
float*c){const
int
bid
=
blockIdx.x;constint
tid
=
threadIdx.x;float
s
=0.0;for
(int
k
=
0;
k
<
n;++k)//A*BT連續(xù)訪問s+=
a[bid*n
+
k]
*
b[tid*n
+k];c[bid*n
+
tid]
=
s;}GPU計算CijA,B矩陣均連續(xù)訪問(需要首先將B矩形轉(zhuǎn)置)矩陣轉(zhuǎn)置void
check_data(int
n,
float
*c,
float
*c1){float
s
=0.0;for
(int
i
=
0;
i
<
n*n;
++i)s
+=
fabs(c[i]
-
c1[i]);printf("Total
error
is
%f
\n",
s);}測試計算是否正確intmain(){const
int
n
=
1024,
M
=
n*n*
sizeof(float);float
*a
=
(float*)malloc(M);float
*b
=
(float*)malloc(M);float
*c
=
(float*)
malloc(M);float
*c1
=(float*)malloc(M);float
*d_a,
*d_b,
*d_c,
*d_bT;for
(int
i
=0;
i
<n*n;++i){a[i]
=
(float)
(rand()%100);b[i]
=
(float)
(rand()%100);}clock_t
time1,
time2,time3,time4;time1
=clock();matrix_mul_cpu(n,
a,
b,
c);time2
=clock();printf("Time
for
CPUrun
is:
%f
seconds
\n",
(double)(time2
-
time1)
/
CLOCKS_PER_SEC);cudaMalloc(&d_a,
M);cudaMalloc(&d_b,
M);cudaMalloc(&d_c,
M);cudaMemcpy(d_a,
a,
M,
cudaMemcpyHostToDevice);cudaMemcpy(d_b,
b,
M,
cudaMemcpyHostToDevice);Time3=clock();賦初值CPU計算C=A*BGPU計算
C=A*B開辟數(shù)組A,B,C;matrix_mul_gpu<<<n,n>>>(n,d_a,d_b,d_c);//計算C=A*B,每個線程上計傳算一至個點GPU端cudaDeviceSynchronize();cudaMemcpy(c1,d_c,
M,
cudaMemcpyDeviceToHost);time4
=clock();printf("Time
for
GPU
run
is:
%f
seconds
\n",
(double)(time4
-
time3)
/
CLOCKS_PER_SEC);check_data(n,c,
c1);cudaFree(d_a);cudaFree(d_b);cudaFree(d_c);cudaFree(d_bT);//
by
using
transposetime1
=
clock();cudaMalloc(&d_a,M);cudaMalloc(&d_b,M);cudaMalloc(&d_c,
M);cudaMalloc(&d_bT,
M);cudaMemcpy(d_a,
a,
M,
cudaMemcpyHostToDevice);cudaMemcpy(d_b,
b,
M,
cudaMemcpyHostToDevice);transpose
<<<n,
n
>>>
(n,
d_b,
d_bT);cudaDeviceSynchronize();matrix_mul_gpu2
<<<n,
n
>>>
(n,
d_a,
d_bT,
d_c);cudaMemcpy(c1,
d_c,
M,
cudaMemcpyDeviceToHost);time2
=
clock();printf("Time
for
GPU
run
is:
%f
seconds
\n",
(double)(time2-
time1)
/CLOCKS_PER_SEC);check_data(n,
c,
c1);free(a)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 音樂節(jié)商業(yè)計劃書
- 變電站專用UPS電源行業(yè)深度研究報告
- 淺論王士禛題畫詩對其“神韻論”的契合與背離
- 2024-2025學(xué)年高中歷史第3單元西方近代早期的改革第9課歐洲宗教改革學(xué)案岳麓版選修1
- 2024-2025學(xué)年高中政治7.1中國特色社會主義政黨制度訓(xùn)練含解析新人教版必修2
- 2024-2025學(xué)年高中語文10過秦論習(xí)題含解析新人教版必修3
- 2024-2025學(xué)年高中生物第四章光合作用和細(xì)胞呼吸第一節(jié)第2課時酶與酶促反應(yīng)練習(xí)含解析蘇教版必修1
- 2024-2025版新教材高中歷史第十單元改革開放與社會主義現(xiàn)代化建設(shè)新時期第29課改革開放以來的巨大成就練習(xí)含解析新人教版必修中外歷史綱要上
- 2020-2025年中國輔助降血糖保健品行業(yè)深度分析及投資規(guī)劃研究建議報告
- 中國永磁減速起動電機(jī)項目投資可行性研究報告
- 建筑安全施工勞動保護(hù)考核試卷
- 烹飪工藝與營養(yǎng)基礎(chǔ)知識單選題100道及答案解析
- DB52T 1036-2015 建材產(chǎn)品中廢渣摻加量的測定方法
- 電玩城游戲機(jī)維修培訓(xùn)
- 磁力聚星星選達(dá)人認(rèn)證考試-初階
- 《心態(tài)管理》課件
- 裝修垃圾清運方案
- 2024年三違人員培訓(xùn)制度(四篇)
- 急救藥品課件教學(xué)課件
- 教師職業(yè)道德-教師專業(yè)發(fā)展(教師培訓(xùn)課件)
- 《國土空間規(guī)劃》-課程教學(xué)大綱
評論
0/150
提交評論