| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 1026 人关注过本帖
标题:高性能矩阵乘代码编写问题
取消只看楼主 加入收藏
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
结帖率:100%
收藏
已结贴  问题点数:20 回复次数:7 
高性能矩阵乘代码编写问题
我目前在做BLAS数学库中dgemm函数的c语言实现,虽然目前有很多高性能的数学库开源代码,但大部分都是用汇编代码和fortran代码实现。我在用c语言实现的时候,在Intel平台上测试性能很低,只达到理论峰值的三分之一,希望在这方面有研究的大侠高手多多指教,比较急切,谢谢各位!!
搜索更多相关主题的帖子: 矩阵 编写 代码 高性能 
2010-03-08 22:29
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
自己顶下!
2010-03-09 09:26
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
实现双精度矩阵矩阵程,类似于C=A×B+C,其中A,B,C都是矩阵。
2010-03-09 15:58
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
假设A,B,C都是N*N的矩阵,按列主行方式存储,一般矩阵-矩阵乘算法如下:
for(k=0;k<N;k++)
   for(i=0;i<N;i++)
      for(j=0;j<N;j++)
         C[j*N+i]+=A[k*N+i]*B[j*N+k];

考虑到按列主存的方式矩阵B的访问不连续,已经事先做过转置拷贝,但是效果仍然很不理想,虽然比原来没拷贝有所提高,但是离峰值还是很远。。。。。。
我觉大部分开销都浪费到访存上,但是不知道怎么处理,
我是用Inter ICC 编译器编译的
2010-03-09 16:24
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
发的什么?
2010-03-09 18:20
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
我想问下用指针代替数组索引是不是会提高代码效率
用宏代替部分编码呢?
2010-03-10 10:30
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
非常感谢楼上分享的代码
我原来问题算的是性能(也就是gflops) ,假设矩阵i,j,k的规模为M*N*K,那么矩阵乘算法的主要操作就是在C=A*B+C;中包含的一次乘法和一次加法,
这样总得运算量应该至少为2×M×N×K次,然后用系统提供的时间函数测出multy函数的运行时间t,(2×M×N×K)/ t 换算下单位就可以得到gflops
而且矩阵的规模一般都很大,还要考虑访存的延迟,所以不做循环展开之类的优化操作,性能是不会很好的。。。。。。
2010-03-10 16:50
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
非常感谢 我想C也的确是不能再提升了,我目前还是考虑单cpu呵呵

2010-03-10 19:50
快速回复:高性能矩阵乘代码编写问题
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.016905 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved