| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 1026 人关注过本帖
标题:高性能矩阵乘代码编写问题
只看楼主 加入收藏
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
结帖率:100%
收藏
已结贴  问题点数:20 回复次数:14 
高性能矩阵乘代码编写问题
我目前在做BLAS数学库中dgemm函数的c语言实现,虽然目前有很多高性能的数学库开源代码,但大部分都是用汇编代码和fortran代码实现。我在用c语言实现的时候,在Intel平台上测试性能很低,只达到理论峰值的三分之一,希望在这方面有研究的大侠高手多多指教,比较急切,谢谢各位!!
搜索更多相关主题的帖子: 矩阵 编写 代码 高性能 
2010-03-08 22:29
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
自己顶下!
2010-03-09 09:26
q260548893
Rank: 2
等 级:论坛游民
帖 子:24
专家分:46
注 册:2010-2-4
收藏
得分:0 
dgemm是实现什么功能啊?
2010-03-09 13:41
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
实现双精度矩阵矩阵程,类似于C=A×B+C,其中A,B,C都是矩阵。
2010-03-09 15:58
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
假设A,B,C都是N*N的矩阵,按列主行方式存储,一般矩阵-矩阵乘算法如下:
for(k=0;k<N;k++)
   for(i=0;i<N;i++)
      for(j=0;j<N;j++)
         C[j*N+i]+=A[k*N+i]*B[j*N+k];

考虑到按列主存的方式矩阵B的访问不连续,已经事先做过转置拷贝,但是效果仍然很不理想,虽然比原来没拷贝有所提高,但是离峰值还是很远。。。。。。
我觉大部分开销都浪费到访存上,但是不知道怎么处理,
我是用Inter ICC 编译器编译的
2010-03-09 16:24
刘晓鹏
Rank: 2
等 级:论坛游民
帖 子:70
专家分:68
注 册:2010-1-4
收藏
得分:0 
<marquee><font size=7 color=red>阅</font></marquee>
2010-03-09 18:02
刘晓鹏
Rank: 2
等 级:论坛游民
帖 子:70
专家分:68
注 册:2010-1-4
收藏
得分:0 
额,没用啊
2010-03-09 18:02
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
发的什么?
2010-03-09 18:20
traz_
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2010-3-8
收藏
得分:0 
我想问下用指针代替数组索引是不是会提高代码效率
用宏代替部分编码呢?
2010-03-10 10:30
Devil_W
Rank: 10Rank: 10Rank: 10
等 级:青峰侠
威 望:9
帖 子:1160
专家分:1797
注 册:2009-9-14
收藏
得分:10 
程序代码:
#include<iostream>
#include<climits>
#define MAX 1024
using namespace std;
class MatrixChain{
private:
    int *p;
    int **m,**s;
    const int size;
protected:

public:
    MatrixChain(int n):size(n)
        {
            p=new int[n+1];
            for( int i=0;i<n;i++)
            {
                cin>>p[i];
            }
            m=new int*[n+1];
            s=new int*[n+1];
            for( int i=0;i<n+1;i++)
            {
                m[i]=new int[n+1];
                s[i]=new int[n+1];
            }
        }
    ~MatrixChain(){
        delete[] p;
        for(int i=0;i<size+1;i++)
        {
            delete[] m[i];
            delete[] s[i];
        }
        delete [] m;
        delete [] s;
    }
    void Matrix_Chain_Order()
        {
            int n=size-1;
            for( int i;i <=n;i++)
            {
                m[i][i]=0;
            }
            for( int l=2;l<=n;l++)
            {
                for( int i=1; i<=n-l+1;i++)
                {
                    int j= i+l-1;
                    m[i][j]=INT_MAX;
                    for(int k= i; k<=j-1;k++)
                    {
                        int q=m[i][k]+m[k+1][j]+p[i-1]*p[k]*p[j];
                        if(q<m[i][j])
                        {
                            m[i][j]=q;
                            s[i][j]=k;
                        }
                    }
                }
            }
        }
    void Print_Optimal_Parens( int i, int j)
        {
            if( i==j)
            {
                cout<<"A"<<i;
                return ;
            }
            else{
                cout<<"(";
                Print_Optimal_Parens(i,s[i][j]);
                Print_Optimal_Parens(s[i][j]+1,j);
                cout<<")";
            }
        }
};
int main()
{
    int s;
    while(cin>>s && !cin.eof())
    {
        if(s==0)
            break;
        MatrixChain matrix(s);
        matrix.Matrix_Chain_Order();
        matrix.Print_Optimal_Parens(1,s-1);
        cout<<endl;
    }
    return 0;
}
2010-03-10 10:36
快速回复:高性能矩阵乘代码编写问题
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.017691 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved