一、补充内容:
由于计算机的内存是一维的,多维数组的元素应排成线性序列后存入存储器。数组一般不做插入和删除操作,即结构中元素个数和元素间的关系不变。所以采用顺序存储方法表示数组。
1、 行优先存储
将数组元素按行向量排列,第i+1个行向量紧接在第i个行向量后面。
【例】二维数组A[m][n]按行优先存储的线性序列为:
A[0][0]、A[0][1]…A[0][n]、A[1][1]、A[1][1]…A[1][n]…A[m][n]、A[m][1]…A[m][n]
在PASCAL和C语言中数组按行优先顺序存储。
2、 列优先存储
将数组元素按列向量排列,第i+1个列向量紧接在第i个列向量后面。
【例】二维数组A[m][n]按列优先存储的线性序列为:
A[0][0]、A[1][0]…A[m][0]、A[0][1]、A[1][1]…A[m][1]…A[m][1]、A[0][n]…A[m][n]
ORTRAN语言中,数组按列优先顺序存储。
二、以矩阵乘法为例,了解cpu cache对程序性能的影响
/*square1.cpp*/
/*未经优化的矩阵乘法程序*/
#include <iostream>
using namespace std;
const int N = 1000;
int a[N][N] = {0}, b[N][N] = {0}, c[N][N] = {0};
int main() {
int i, j, k;
for (i = 0; i < N; i++) {
for (j = 0; j < N; j++) {
a[i][j] = i+j;
b[i][j] = i+j;
}
}
for (i = 0; i < N; i++) {
for (j = 0; j < N; j++) {
for (k = 0; k < N; k++) {
c[i][j] += a[i][k] * b[k][j];
}
}
}
return 0;
}
/*square2.cpp*/
/*优化过的矩阵乘法程序*/
#include <iostream>
using namespace std;
const int N = 1000;
int a[N][N] = {0}, b[N][N] = {0}, c[N][N] = {0};
int main() {
int i, j, k;
for (i = 0; i < N; i++) {
for (j = 0; j < N; j++) {
a[i][j] = i+j;
b[i][j] = i+j;
}
}
for (i = 0; i < N; i++) {
for (k = 0; k < N; k++) {
for (j = 0; j < N; j++) {
c[i][j] += a[i][k] * b[k][j];
}
}
}
return 0;
}
两段程序的唯一差别,就是把 三层循环中的 j 循环 和k 循环的顺序交换了一下。
square1.cpp中因为第三层循环(最内层循环)是对k进行循环,因此b[k][j]是对b逐列进行访问。我们知道内存中二维数组是以行为单位连续存储的,逐列访问将会每次跳1000*4(bytes)。根据cpu cache的替换策略,将会有大量的cache失效。因此square2.cpp将j循环和k循环交换位置,这样就保证了
c[i][j] += a[i][k] * b[k][j];
这条语句对内存的访问是连续的,增加了cache的命中率,大大提升了程序执行速度。
我们来看一下实测效果:(测试环境:64位双核2.4GHz cpu)
执行时间测试: