GPU上半精度单精度和双精度运行速度半精度单精度双精度

转载

mob64ca13f7ecc9 2024-08-25 21:10:41

文章标签 GPU上半精度单精度和双精度运行速度浮点数数位二进制数 文章分类 游戏开发

单精度，双精度浮点存储表示

基础知识：

十进制转十六进制；

十六进制转二进制；

了解：

目前C/C++ 编译器标准都遵照IEEE 制定的浮点数表示法来进行float,double 运算。这种结构是一种科学计数法，用符号、指数和尾数来表示，底数定为2—— 即把一个浮点数表示为尾数乘以2 的指数次方再添上符号。下面是具体的规格：

例二：
已知：整数3490593(16 进制表示为0x354321)
求：其对应的浮点数3490593.0  
解法如下：
先求出整数3490593
 H:    3     5    4    3    2     1   （十六进制表示）
 B:   001 1  0101 0100 0011 0010  0001 （二进制表示）
         │←──────21
 
即： 
               1.1010101000011001000012 ×221
可见，从左算起第一个1有21 位，我们将这21 为作为浮点数的小数表示，单精度浮点数float 由符号位1 位，指数域位k=8 位，小数域位( 尾数 )n=23 位构成，因此对上面得到的21 位小数位我们还需要补上2 个0
         1 0101 0100 0011 0010 0001 00
 
float 类型的 偏置量Bias=2k-1 -1=28-1 -1=127 ，但还要补上刚才因为右移作为小数部分的21 位，因此偏置量为 127+12=148 ，就是 IEEE 浮点数表示标准：
                          V = (-1)s × M × 2E
                    E = e-Bias
中的 e ，此前计算 Bias=127 ，刚好验证了 E=148-127=21 。
 
将 148 转为二进制表示为 10010100 ，加上符号位 0 ，最后得到二进制浮点数表示1001010010101010000110010000100 ，其 16 进制表示为：
 H:     4        A       5          5         0         C         8        4  
0 100   1010   0 101    0101   0000   1100  1000   0100
      21        ─────→   |
       23       ─────→ |
 
这就是浮点数 3490593.0(0x4A550C84) 的二进制表示。
 
例三：
0.5的二进制形式是0.1
它用浮点数的形式写出来是如下格式
 
0                01111110                 00000000000000000000000
符号位           阶码                       小数位
正数符号位为0 ，负数符号位为1
阶码是以2
小数位表示小数点后面的数字
下面我们来分析一下0.5 是如何写成0 01111110 0000000 00000000 00000000
首先0.5 是正数所以符号位为0
再来看阶码部分,0.5 的二进制数是0.1, 而0.1 是1.0*2^(-1), 所以我们总结出来:
要把二进制数变成(1.f)*2^(exponent) 的形式, 其中exponent
而由于阶码有正负之分所以阶码=127+exponent;
即阶码=127+(-1)=126 即 01111110
余下的小数位为二进制小数点后面的数字, 即00000000000000000000000
由以上分析得0.5 的浮点数存储形式为0 01111110 00000000000000000000000  
注：如果只有小数部分, 那么需要右移小数点. 比如右移3 位才能放到第一个1 的后面, 阶码就是127-3=124.
例四   （20.59375 ）10 = （10100.10011 ）2

首先分别将整数和分数部分转换成二进制数： 

20.59375 ＝10100.10011 

然后移动小数点，使其在第1 ，2 位之间 

10100.10011 ＝1.010010011×2^4   即e ＝4 

于是得到： 

S ＝0 ， E ＝4 ＋127 ＝131 ， M ＝010010011 

最后得到32 位浮点数的二进制存储格式为： 

0100 0001 1010 0100 1100 0000 0000 0000＝(41A4C000)16

符号位     阶码      尾数     长度 
float           1          8        23      32
double          1         11        52      64 
以下通过几个例子讲解浮点数如何转换为二进制数
例一：
已知：double 类型38414.4
求：其对应的二进制表示。
分析：double 类型共计64 位，折合8 字节。由最高到最低位分别是第63 、62 、61 、……、0 位：
     最高位63 位是符号位，1 表示该数为负，0 表示该数为正；
    62-52 位，一共11 位是指数位；
    51-0 位，一共52 位是尾数位。

     步骤：按照IEEE 浮点数表示法，下面先把38414.4 转换为十六进制数。
      把整数部和小数部分开处理: 整数部直接化十六进制：960E 。小数的处理:
0.4=0.5*0+0.25*1+0.125*1+0.0625*0+……
     实际上这永远算不完！这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53 位就行了。隐藏位技术：最高位的1 （最终保留下来的还是52 位）。
     如果你够耐心，手工算到53 位那么因该是：38414.4(10)=1001011000001110.0110101010101010101010101010101010101(2)科学记数法为：1.0010110000011100110101010101010101010101010101010101 ，右移了15位，所以指数为15
1.00101100000111001101010101010101010101010101010101012 ×215
     于是来看阶码，按IEEE 标准一共11 位，可以表示范围是-1024 ~ 1023 。因为指数可以为负，为了便于计算，规定都先加上1023(2^10-1) ，在这里，阶码：15+1023=1038 。二进制表示为：100 00001110 ；
     符号位：因为38414.4 为正对应  为0 ；
     合在一起（注：尾数二进制最高位的1 ）：
01000000 11100010 11000001 11001101 01010101 01010101 01010101 01010101

例五：-12.5 转为单精度二进制表示
12.5: 
1. 整数部分12 ，二进制为1100; 小数部分0.5, 二进制是.1 ，先把他们连起来，从第一个1 数起取24 位（后面补0 ）： 
1100.1 000 00000000 00000000 
这部分是有效数字。（把小数点前后两部分连起来再取掉头前的1 ，就是尾数） 
2. 把小数点移到第一个1 的后面，需要左移3 位（1.1001 00000000000 00000000*2^3 ）,加上偏移量127 ：127+3=130 ，二进制是10000010 ，这是阶码。 
3. -12.5 是负数，所以符号位是1 。把符号位，阶码和尾数连起来。注意，尾数的第一位总是1，所以规定不存这一位的1 ，只取后23 位： 
1 10000010 10010000000000000000000 
把这32 位按8 位一节整理一下，得： 
11000001 01001000 00000000 00000000 
就是十六进制的 C1480000. 

例六：2.025675 
1. 整数部分2 ，二进制为10; 小数部分0.025675, 二进制是.0000 01101001 00101010 01 ，先把他们连起来，从第一个1 数起取24 位（后面补0 ）： 
10.0000011010010010101001 
这部分是有效数字。把小数点前后两部分连起来再取掉头前的1 ，就是尾数: 00000011010010010101001 
2. 把小数点移到第一个1 的后面，左移了1 位, 加上偏移量127 ：127+1=128 ，二进制是10000000 ，这是阶码。 
3. 2.025675 是正数，所以符号位是0 。把符号位，阶码和尾数连起来： 
0 10000000 00000011010010010101001 
把这32 位按8 位一节整理一下，得： 
01000000 00000001 10100100 10101001 
就是十六进制的 4001A4A9.  
例七：(逆向求十进制整数) 一个浮点二进制数手工转换成十进制数的例子： 假设浮点二进制数是 1011 1101 0100 0000 0000 0000 0000 0000 
按1 ，8 ，23
1 01111010 10000000000000000000000 
最后一段是尾数。前面加上"1.", 就是 1.10000000000000000000000 
下面确定小数点位置。由 E = e-Bias， 阶码E 是01111010 ，加上00000101 才是01111111（127 ）， 
所以他减去127 的偏移量得e=-5 。（或者化成十进制得122 ，122-127=-5 ）。 
因此尾数1.10 （后面的0 不写了）是小数点右移5 位的结果。要复原它就要左移5 位小数点，得0.0000110, 即十进制的0.046875 。
最后是符号：1 代表负数，所以最后的结果是 -0.046875 。

注意：其他机器的浮点数表示方法可能与此不同. 不能任意移植

再看一例( 类似例七)

比如：53004d3e
二进制表示为：
01010011000000000100110100111110
按照1 个符号    8 个指数          23
0              10100110         00000000100110100111110
正确的结果转出来应该是551051722752.0

该怎么算？

好，我们根据IEEE 的浮点数表示规则划分，得到这个浮点数的小数位是：

00000000100110100111110 

那么它的二进制表示就应该是：

1.000000001001101001111102 × 239 

这是怎么来的呢？  
标准化公式中的M 1<M<(2- ε)正因为如此，我们才需要对原始的整数二进制表示做偏移，偏移多少呢？偏移 2E 。 
这个“E” 239 怎么得来的呢？ 浮点数表示中的8 
E = e-Bias 
那么根据指数位:101001102 => 16610 
即e=166 ，由此算出E=e-Bias=166-127=39 ，就是说将整数二进制表示转为标准的浮点数二进制表示的时候需要将小数点左移391 00000000100110100111110 0000000000000000
1 │←───── 23 ─────→│←─── 16 ───→│

23+16=39 ，后面接着就是小数点了。
拿出计算器，输入二进制数1000000001001101001111100000000000000000转为十进制数，不正是：551051722752 么！

通过这例六例七，介绍了将整数二进制表示转浮点数二进制表示的逆过程，还是希望大家不但能掌握转化的方法，更要理解转化的基本原理。

---------------------
根据ieee的标准，浮点数可以这样表示：
第一位是符号位，第2位到第12位是阶码，第13位到第64位是尾数，你找一本计算机组成原理的书看看，会有介绍的，double型变量与普通的整型和字符型数据不同，所以在转换的时候需要进行位运算，下面是我的程序，如果你不熟悉位运算的话，就没有办法看懂了。
我的程序是将一个双精度型的数在内存的表示挖出来让你看看：
/*
 FileName: double.c

 Author: dcyu

 Date: 2002.10.6
*/

#include <stdio.h>
#include <stdlib.h>
#include <math.h>

union
{
 char   c[8];
 int    i[4];
 float  f[2];
 double d;
} un ;

char change(char c,int flag)
{
 if(flag==1)
 return c&0x0f;
 else
 return (c&0xf0)>>4;
}

char judge16(char c)
{
 int ii;
 char cc[16]={'0','1','2','3','4','5','6','7','8','9',
  'a','b','c','d','e','f' };

 ii=(int) c;
 return cc[ii];

}

char *judge2(char c)
{
 int ii;
 char *cc[16]={"0000","0001","0010","0011","0100","0101","0110","0111",
"1000","1001","1010","1011","1100","1101","1110","1111"};

 ii=(int) c;
 return cc[ii];

}

int main()
{
int j;
int sign,jie,tail[4];
system("cls");
un.d=-128.0625; /* 将需要表示的数写在这 */

printf("%lf\n",un.d);
for(j=7;j>=0;j--)
{
printf("%c",judge16(change(un.c[j],0)));
printf("%c",judge16(change(un.c[j],1)));
}
printf("\n");
for(j=7;j>=0;j--)
{
printf("%s",judge2(change(un.c[j],0)));
printf("%s",judge2(change(un.c[j],1)));
}

sign=abs((un.i[3]&(1<<15))>>15);
jie=((un.i[3]&(0x7ff<<4))>>4)-0x3ff;
printf("\nsign:\t\t%s \n",(sign==1)?"negative":"positive");
printf("exponont:\t%d \n",jie);
printf("mantissa:\t1.%s",judge2(change(un.c[6],1)));
for(j=5;j>=0;j--)
{
printf("%s",judge2(change(un.c[j],0)));
printf("%s",judge2(change(un.c[j],1)));
}
return 0;
}
输出：
-128.062500            
c060020000000000   /* 这是-128.062500在内存的表示形式 */
1100000001100000000000100000000000000000000000000000000000000000
/* 这是它的二进制表示 */
sign:	 negative  /* 符号码 */
exponont: 	7  /* 阶码 */
mantissa:	   1.0000000000100000000000000000000000000000000000000000
/*尾数 */
所以
-128.062500=-1。00000000001*2^7

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。