|
网站首页
|
业界新闻
|
小组
|
威客
|
人才
|
下载频道
|
博客
|
代码贴
|
在线编程
|
编程论坛
|
登录
注册
短消息
我发表的主题
我参与的主题
我收藏的贴子
我上传的附件
我下过的附件
编辑个人资料
我的博客
用户控制面板
搜索
道具
恢复默认风格
碧海青天
秋意盎然
棕红预览
粉色回忆
蓝雅绿
紫色淡雅
青青河草
e点小镇
橘子红了
红红夜思
水晶紫色
雪花飘飘
新年快乐
风格
短消息
论坛展区
帮助
编程论坛
→
开发语言
→
『 C语言论坛 』
→ 高性能矩阵乘代码编写问题
我的收件箱(0)
欢迎加入我们,一同切磋技术
用户名:
密 码:
共有
1026
人关注过本帖
标题:
高性能矩阵乘代码编写问题
取消只看楼主
加入收藏
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
结帖率:
100%
楼主
收藏
已结贴
√
问题点数:20 回复次数:7
高性能矩阵乘代码编写问题
我目前在做BLAS数学库中dgemm函数的c语言实现,虽然目前有很多高性能的数学库开源代码,但大部分都是用汇编代码和fortran代码实现。我在用c语言实现的时候,在Intel平台上测试性能很低,只达到理论峰值的三分之一,希望在这方面有研究的大侠高手多多指教,比较急切,谢谢各位!!
搜索更多相关主题的帖子:
矩阵
编写
代码
高性能
2010-03-08 22:29
举报帖子
使用道具
赠送鲜花
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
2
楼
收藏
得分:0
自己顶下!
2010-03-09 09:26
举报帖子
使用道具
赠送鲜花
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
3
楼
收藏
得分:0
实现双精度矩阵矩阵程,类似于C=A×B+C,其中A,B,C都是矩阵。
2010-03-09 15:58
举报帖子
使用道具
赠送鲜花
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
4
楼
收藏
得分:0
假设A,B,C都是N*N的矩阵,按列主行方式存储,一般矩阵-矩阵乘算法如下:
for(k=0;k<N;k++)
for(i=0;i<N;i++)
for(j=0;j<N;j++)
C[j*N+i]+=A[k*N+i]*B[j*N+k];
考虑到按列主存的方式矩阵B的访问不连续,已经事先做过转置拷贝,但是效果仍然很不理想,虽然比原来没拷贝有所提高,但是离峰值还是很远。。。。。。
我觉大部分开销都浪费到访存上,但是不知道怎么处理,
我是用Inter ICC 编译器编译的
2010-03-09 16:24
举报帖子
使用道具
赠送鲜花
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
5
楼
收藏
得分:0
发的什么?
2010-03-09 18:20
举报帖子
使用道具
赠送鲜花
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
6
楼
收藏
得分:0
我想问下用指针代替数组索引是不是会提高代码效率
用宏代替部分编码呢?
2010-03-10 10:30
举报帖子
使用道具
赠送鲜花
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
7
楼
收藏
得分:0
非常感谢楼上分享的代码
我原来问题算的是性能(也就是gflops) ,假设矩阵i,j,k的规模为M*N*K,那么矩阵乘算法的主要操作就是在C=A*B+C;中包含的一次乘法和一次加法,
这样总得运算量应该至少为2×M×N×K次,然后用系统提供的时间函数测出multy函数的运行时间t,(2×M×N×K)/ t 换算下单位就可以得到gflops
而且矩阵的规模一般都很大,还要考虑访存的延迟,所以不做循环展开之类的优化操作,性能是不会很好的。。。。。。
2010-03-10 16:50
举报帖子
使用道具
赠送鲜花
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
8
楼
收藏
得分:0
非常感谢 我想C也的确是不能再提升了,我目前还是考虑单cpu呵呵
2010-03-10 19:50
举报帖子
使用道具
赠送鲜花
8
1/1页
1
快速回复:
高性能矩阵乘代码编写问题
数据加载中...
关于我们
|
广告合作
|
编程中国
|
清除Cookies
|
TOP
|
手机版
编程中国
版权所有,并保留所有权利。
Powered by
Discuz
, Processed in 0.082906 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved