gpu 半精度单精度区别

转载

mob64ca140088a9 2024-09-09 21:16:41

文章标签 gpu 半精度单精度区别 cuda gpu i++ CUDA 文章分类 游戏开发

本人在开发项目时，遇到这个非法访问内存的错误：
Check failed: error == cudaSuccess (77 vs. 0) an illegal memory access was encountered
检查了很长时间代码，也没检查出错误，最后通过逐步输出中间结果进行调试，发现某些变量被GPU计算错了，而导致这个错误的原因就是：float 精度不够，索引是根据中间变量计算而来，当中间误差特别大时，会导致内存索引所以变得非常大，而导致非法访问内存的错误。

我在代码中使用了float类型，而在 GPU 上则仅仅能用 float仅为32 bits 浮点数，float的精度为6~7位有效数字，我的代码中要对非常相近的数字做差，而做差结果小于1e-6，而我用float 类型存储做差结果，GPU实际存储的并不是做差的结果，这样导致我后面代码中用于访问内存的索引变得特别大，而出现了非法访问内存的问题。

虽然使用 float 比使用 double 效率更高，但是在需要进行精准运算的时候，还是建议用double类型。

虽然是这么个小错误，但是真的很难发现，这个错误耽误了我很长时间，一步步调试才发现最终是精度的问题，所以以后在GPU编程时一定要注意精度问题。

float和double各段的位数各自是：

float：
1bit（符号位） 8bits（指数位） 23bits（尾数位）

double：
1bit（符号位） 11bits（指数位） 52bits（尾数位）

float和double的精度是由尾数的位数来决定的：

float： 2^23 = 8388608。一共七位，这意味着最多能有7位有效数字，但绝对能保证的为6位，也即float的精度为6~7位有效数字。

double： 2^52 = 4503599627370496，一共16位，同理。double的精度为15~16位。

另外一个比较常见的问题就是累加误差溢出的问题：

以下内容来自：，侵删。
大数吃小数：

float由于位数相较于double要短不少，所以非常easy出现大数吃小数的问题：

比方我们用两个float相加:

#include <stdio.h>

int main()
{
    float a = 100998;
    float b = 2.338;

    a = a + b;

    printf("the sum is %f", a);

}

a+b 应该等于 101000.338，前面说了float的精度有6~7位，所以38可能会被截掉，3不一定，可是8必定会被截掉。我们能够实际输出一下看看：

结果是：the sum is 101000.335938

由于%f是输出double类型。能够看到转换后8这位已经没了，33是正常的。

从这里能够看到一个加法过程就没了0.008，要是加1000次。一个整8就没了。

这就是大数吃小数问题。

Kahan’s Summation Formula：

如今我们就要想办法解决问题了，我们看到标题中这个看起来非常高大上的名字，这个也叫作kahan求和算法，我们接下来就要用kahan求和来避免这样的精度损失的情况。

名字非常高大上，可是原理非常小儿科，小学生也知道，缺的我们想办法再补回来：

所以我们用一个temp变量来记住损失掉的部分，等下次加法的时候再加回去就好了。

temp= (a+b)-a-b; 在上面那个问题中 temp = -0.008,在下次计算的时候加和到下一个加数就能够一定程度的减小误差。

Kahan’s Summation Formula伪代码：

unction KahanSum(input)
    var sum = 0.0
    var c = 0.0             //A running compensation for lost low-order bits.
    for i = 1 to input.length do
        y = input[i] - c    //So far, so good: c is zero.
        t = sum + y         //Alas, sum is big, y small, so low-order digits of y are lost.
        c = (t - sum) - y   //(t - sum) recovers the high-order part of y; subtracting y recovers -(low part of y)
        sum = t             //Algebraically, c should always be zero. Beware eagerly optimising compilers!
        //Next time around, the lost low part will be added to y in a fresh attempt.
    return sum

提高矩阵乘法的精度：
看着伪代码比着葫芦画瓢还是比較简单的,我们仅仅须要更改核函数中的加和部分就可以：

原版

//计算矩阵乘法
    if (row < n && column < n)
    {
        float t = 0;

        for (i = 0; i < n; i++)
        {
            t += a[row * n + i] * b[i * n + column];
        }
        c[row * n + column] = t;
    }

改版

//计算矩阵乘法
    if (row < n && column < n)
    {
        float t = 0;
        float y = 0;

        for (i = 0; i < n; i++)
        {
            float r;

            y -= a[row * n + i] * b[i * n + column];
            r = t - y;
            y = (r - t) + y;
            t = r;
        }
        c[row * n + column] = t;
    }

完整程序：

#include <stdio.h>
#include <stdlib.h>
#include <time.h>

//CUDA RunTime API
#include <cuda_runtime.h>

#define THREAD_NUM 256

#define MATRIX_SIZE 1000

const int blocks_num = MATRIX_SIZE*(MATRIX_SIZE + THREAD_NUM - 1) / THREAD_NUM;

//打印设备信息
void printDeviceProp(const cudaDeviceProp &prop)
{
    printf("Device Name : %s.\n", prop.name);
    printf("totalGlobalMem : %d.\n", prop.totalGlobalMem);
    printf("sharedMemPerBlock : %d.\n", prop.sharedMemPerBlock);
    printf("regsPerBlock : %d.\n", prop.regsPerBlock);
    printf("warpSize : %d.\n", prop.warpSize);
    printf("memPitch : %d.\n", prop.memPitch);
    printf("maxThreadsPerBlock : %d.\n", prop.maxThreadsPerBlock);
    printf("maxThreadsDim[0 - 2] : %d %d %d.\n", prop.maxThreadsDim[0], prop.maxThreadsDim[1], prop.maxThreadsDim[2]);
    printf("maxGridSize[0 - 2] : %d %d %d.\n", prop.maxGridSize[0], prop.maxGridSize[1], prop.maxGridSize[2]);
    printf("totalConstMem : %d.\n", prop.totalConstMem);
    printf("major.minor : %d.%d.\n", prop.major, prop.minor);
    printf("clockRate : %d.\n", prop.clockRate);
    printf("textureAlignment : %d.\n", prop.textureAlignment);
    printf("deviceOverlap : %d.\n", prop.deviceOverlap);
    printf("multiProcessorCount : %d.\n", prop.multiProcessorCount);
}

//CUDA 初始化
bool InitCUDA()
{
    int count;

    //取得支持Cuda的装置的数目
    cudaGetDeviceCount(&count);

    if (count == 0)
    {
        fprintf(stderr, "There is no device.\n");

        return false;
    }

    int i;

    for (i = 0; i < count; i++)
    {

        cudaDeviceProp prop;
        cudaGetDeviceProperties(&prop, i);
        //打印设备信息
        printDeviceProp(prop);

        if (cudaGetDeviceProperties(&prop, i) == cudaSuccess)
        {
            if (prop.major >= 1)
            {
                break;
            }
        }
    }

    if (i == count)
    {
        fprintf(stderr, "There is no device supporting CUDA 1.x.\n");
        return false;
    }

    cudaSetDevice(i);

    return true;

}

//生成随机矩阵
void matgen(float* a, int n)
{
    int i, j;

    for (i = 0; i < n; i++)
    {
        for (j = 0; j < n; j++)
        {

            a[i * n + j] = (float)rand() / RAND_MAX + (float)rand() / (RAND_MAX * RAND_MAX);

        }
    }
}

// __global__ 函数 并行计算矩阵乘法
__global__ static void matMultCUDA(const float* a, const float* b, float* c, int n, clock_t* time)
{

    //表示眼下的 thread 是第几个 thread（由 0 開始计算）
    const int tid = threadIdx.x;

    //表示眼下的 thread 属于第几个 block（由 0 開始计算）
    const int bid = blockIdx.x;

    //从 bid 和 tid 计算出这个 thread 应该计算的 row 和 column
    const int idx = bid * THREAD_NUM + tid;
    const int row = idx / n;
    const int column = idx % n;

    int i;

    //记录运算開始的时间
    clock_t start;

    //仅仅在 thread 0（即 threadIdx.x = 0 的时候）进行记录，每一个 block 都会记录開始时间及结束时间
    if (tid == 0) time[bid] = clock();

    //计算矩阵乘法
    if (row < n && column < n)
    {
        float t = 0;

        //temp变量
        float y = 0;

        for (i = 0; i < n; i++)
        {
            float r;

            y -= a[row * n + i] * b[i * n + column];
            r = t - y;
            y = (r - t) + y;
            t = r;
        }
        c[row * n + column] = t;
    }

    //计算时间,记录结果。仅仅在 thread 0（即 threadIdx.x = 0 的时候）进行，每一个 block 都会记录開始时间及结束时间
    if (tid == 0)
    {
        time[bid + blocks_num] = clock();
    }
}





int main()
{

    //CUDA 初始化
    if (!InitCUDA()) return 0;

    //定义矩阵
    float *a, *b, *c, *d;

    int n = MATRIX_SIZE;

    //分配内存
    a = (float*)malloc(sizeof(float)* n * n);
    b = (float*)malloc(sizeof(float)* n * n);
    c = (float*)malloc(sizeof(float)* n * n);
    d = (float*)malloc(sizeof(float)* n * n);

    //设置随机数种子
    srand(0);

    //随机生成矩阵
    matgen(a, n);
    matgen(b, n);

    /*把数据拷贝到显卡内存中*/
    float *cuda_a, *cuda_b, *cuda_c;

    clock_t* time;

    //cudaMalloc 取得一块显卡内存 
    cudaMalloc((void**)&cuda_a, sizeof(float)* n * n);
    cudaMalloc((void**)&cuda_b, sizeof(float)* n * n);
    cudaMalloc((void**)&cuda_c, sizeof(float)* n * n);
    cudaMalloc((void**)&time, sizeof(clock_t)* blocks_num * 2);


    //cudaMemcpy 将产生的矩阵拷贝到显卡内存中
    //cudaMemcpyHostToDevice - 从内存拷贝到显卡内存
    //cudaMemcpyDeviceToHost - 从显卡内存拷贝到内存
    cudaMemcpy(cuda_a, a, sizeof(float)* n * n, cudaMemcpyHostToDevice);
    cudaMemcpy(cuda_b, b, sizeof(float)* n * n, cudaMemcpyHostToDevice);

    // 在CUDA 中执行函数 语法：函数名称<<<block 数目, thread 数目, shared memory 大小>>>(參数...);
    matMultCUDA << < blocks_num, THREAD_NUM, 0 >> >(cuda_a, cuda_b, cuda_c, n, time);

    /*把结果从显示芯片复制回主内存*/

    clock_t time_use[blocks_num * 2];

    //cudaMemcpy 将结果从显存中复制回内存
    cudaMemcpy(c, cuda_c, sizeof(float)* n * n, cudaMemcpyDeviceToHost);
    cudaMemcpy(&time_use, time, sizeof(clock_t)* blocks_num * 2, cudaMemcpyDeviceToHost);

    //Free
    cudaFree(cuda_a);
    cudaFree(cuda_b);
    cudaFree(cuda_c);
    cudaFree(time);

    //把每一个 block 最早的開始时间。和最晚的结束时间相减。取得总执行时间
    clock_t min_start, max_end;

    min_start = time_use[0];

    max_end = time_use[blocks_num];

    for (int i = 1; i < blocks_num; i++)
    {
        if (min_start > time_use[i]) min_start = time_use[i];

        if (max_end < time_use[i + blocks_num]) max_end = time_use[i + blocks_num];
    }

    //核函数执行时间
    clock_t final_time = max_end - min_start;



    //CPU矩阵乘法，存入矩阵d
    for (int i = 0; i < n; i++)
    {
        for (int j = 0; j < n; j++)
        {
            double t = 0;

            for (int k = 0; k < n; k++)
            {

                t += a[i * n + k] * b[k * n + j];

            }

            d[i * n + j] = t;

        }
    }

    //验证正确性与精确性

    float max_err = 0;

    float average_err = 0;


    for (int i = 0; i < n; i++)
    {
        for (int j = 0; j < n; j++)
        {
            if (d[i * n + j] != 0)
            {
                //fabs求浮点数x的绝对值
                float err = fabs((c[i * n + j] - d[i * n + j]) / d[i * n + j]);

                if (max_err < err) max_err = err;

                average_err += err;
            }
        }
    }

    printf("Max error: %g Average error: %g\n", max_err, average_err / (n * n));


    printf("gputime: %d\n", final_time);



    return 0;

}

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。