C语言 jemalloc优化编译

转载

数码悟透 2024-07-19 06:21:32

文章标签 C语言 jemalloc优化编译全局变量条件判断局部变量 文章分类 机器学习人工智能

C语言性能优化

- 1、数据类型
1）如果确定整数非负，应直接使用unsigned int，处理器处理无符号unsigned 整形数的效率远远高于有符号signed整形数
2）float可以用int替代，如果需要结果精确到小数点后n位，可以将其乘以n*10，结果尽可能晚的把它转换为浮点型数字
3）局部变量尽可能的不使用char和short类型。对于char和short类型，编译器需要在每次赋值的时候将局部变量减少到8或者16位，是通过寄存器左移24或者16位，然后根据有无符号标志右移相同的位数实现，这会消耗两次计算机指令操作

- 2、乘除法和取余数
1）在标准处理器中，对于分子和分母，一个32位的除法需要使用20至140次循环操作。除法函数消耗的时间包括一个常量时间加上每一位除法消耗的时间：
Time (numerator / denominator) = C0 + C1* log2 (numerator / denominator)
= C0 + C1 * (log2 (numerator) - log2 (denominator))
对于ARM处理器，这个版本需要20+4.3N次循环
2）除数是2的幂次，使用移位操作来执行除法，并尽可能的设置除数为2的幂次
3）除法可以替换成乘法：(a/b)>c可以改写为a>(cb)，转换为乘法时需注意是否会溢出
4）乘法可以修改为移位实现：a=a9 替换为a=(a<<3)+a
5）连除可以由乘法代替，但有可能在算乘积时会溢出，使用时要特别注意：m = i / j / k替换为 m = i / (j * k)
6）取Mod替换方法：
a.取8余数 mod%8 等价转换 mod & 7，通常，只要求是求2n方的余数，均可使用位操作的方法来代替
b.用条件判断替换：

int func_mod(int cnt)
{
    return (cnt++ % 20);
}
替换为：
int func_mod(int cnt)
{
   if (count++ >= 20)
   {
      cnt = 0;
   }  
   return cnt;
}

3、使用数组

//使用数组下标获取字符数组的值
static char *str="hello";
... ...
chr = str[index];

4、全局变量
使用全局变量时，需要额外的读取和存储（调用函数中加载，并存储全局变量的值），在重要的循环中不建议使用全局变量
5、指针
1）尽可能的使用引用值的方式传递结构数据，也就是说使用指针，否则传递的数据会被拷贝到栈中，从而降低程序的性能
2）指针链使用局部变量赋值替换，减少层级

p->pst->a = 0;
   p->pst->b = 0;
   p->pst->c = 0; 
//代码在每次操作时必须重复调用p->pst
   pt = p->pst;
   pt->a = 0;
   pt->b = 0;
   pt->c = 0;

6、条件判断
1）使用switch替代if else
switch…case会生成一份大小（表项数）为最大case常量＋1的跳表，程序首先判断switch变量是否大于最大case 常量，若大于，则跳到default分支处理；否则取得索引号为switch变量大小的跳表项的地址（即跳表的起始地址＋表项大小＊索引号），程序接着跳到此地址执行
2）在if(xxx1>XXX1 && xxx2=XXX2)多个条件判断中，确保AND表达式的第一部分最快或最早得到结果，这样第二部分便有可能不需要执行
3）在必须使用if…else…语句，将最可能执行的放在最前面
7、使用增量和减量操作符
增量符语句比赋值语句更快，原因在于对大多数CPU来说，对内存字的增、减量操作不必明显地使用取内存和写内存的指令
8、把频繁使用的指针型参数拷贝到本地变量
避免在函数中频繁使用指针型参数指向的值。因为编译器不知道指针之间是否存在冲突，所以指针型参数往往不能被编译器优化