-
2011-03-11 08:56:04 / GPU高性能计算
对一个矩阵的动态规划方法计算如下:D[j] = 0; 如果i = 0;D[j] = i; 如果j = 0;D[j] = D[j-1]; 如果符合条件1;D[j] = 1+min(D[j],D[j-1],D[j-1]); 其他情况想要对同一行的数据并行的计算,即 对于最后一个式子,要消除 D[j]与D[j-1]之间的关系。忘各位高手不吝赐教~~谢谢了~~
查看(248)
评论(0)
-
2011-03-11 08:54:33 / CUDA程序设计讨论区
编写好的.cu文件,在emudebug下正常运行,在debug下编译无错误,但运行时发现核函数IDCT3(d_src)没能真正执行,也就是执行核函数前后数据不发生变化(正常情况是有变化的)。将程序放在同学电脑上debug下运行正确。真是奇怪了?个人感觉程序代码是正确的,可能是该程序的VS2005或gpu的配置问题?(其他并行程序都能在我电脑
查看(380)
评论(2)
-
2011-03-11 08:51:05 / GPU高性能计算
Linking...**.obj : error LNK2001: unresolved external symbol _MPI_ALLGATHER@28**.obj : error LNK2001: unresolved external symbol _MPI_ALLREDUCE@24Debug/sby_1.exe : fatal error LNK1120: 2 unresolved externalsError executing link.exe.
查看(284)
评论(1)
-
2011-03-03 15:10:28 / CUDA程序设计讨论区
请教cudaMallocPitch()中的pitch,pitch到底是什么意思啊
查看(541)
评论(4)
-
2011-03-03 15:02:33 / CUDA程序设计讨论区
这是一个很简单的异步执行的代码,将sum中的每个数拷进gpu然后平方再拷出来,发现结果是0.代码如下。似乎根本没有拷进gpu啊。请问这个为何。int data[DATA_SIZE];int sum[DATA_SIZE];void GenerateNumbers(int *number, int size){for(int i = 0; i < size; i++) {number = rand() % 5;}}__g
查看(354)
评论(1)
-
2011-03-03 15:01:29 / CUDA程序设计讨论区
类似于 static 定义static unsigned long mt[N]; /* the array for the state vector */static int mti=N+1; /* mti==N+1 means mt[N] is not initialized */位于程序前面 对所有函数都可读写CUDA中global的全局变量可以在gpu和cpu中共同读写 但是应该怎么定义 呢
查看(456)
评论(2)
-
2011-02-24 16:09:35 / CUDA程序设计讨论区
求显存越界的解决方法懂得的人PM我一下啊
查看(368)
评论(1)
-
2011-02-24 16:07:44 / CUDA程序设计讨论区
我产生了5120000个数据并存在一维数组中,我计划对其每512个数据进行一次FFT,也就是10000个512点同时进行FFT,我调用CUFFT的时候NX=512,BATCH=10000,请教一下,程序在运行的时候是不是这么运行的啊,即:0-511,512-1023,......是不是这么调用的数组呢,谢谢了
查看(374)
评论(1)
-
2011-02-24 16:06:35 / CUDA程序设计讨论区
#include#include#include#include/************************************************************************//* Init CUDA *//************************************************************************/#if __DEVICE_EMULATION__bool InitCUDA(void){return true;}#elsebool InitCUDA(v
查看(328)
评论(1)
-
2011-02-24 16:04:00 / CUDA程序设计讨论区
为什么这个cuda优化过后的程序和之前前只用cpu计算速度一样慢?#include// X11 library headers#include#include#include__global__ void ComputMatrix (float *g, float *h,int M){int col = blockIdx.x*blockDim.x+threadIdx.x;int row =blockIdx.y*blockDim.y+threadIdx.y;if
查看(265)
评论(0)