code
"vld1.f32 {d16-d17}, [%1] \n" // vld1.f32, 从 %1 载入128bit
// float *destptr1 = c + ldc;
"vld1.f32 {d18-d19}, [%2] \n"
// float *destptr2 = c + 2 * ldc;
"vld1.f32 {d20-d21}, [%3] \n"
// float *destptr3 = c + 3 * ldc;
"vld1.f32 {d22-d23}, [%4] \n"
"pld [%5, #512] \n" // 预载入
"pld [%6, #512] \n"
"vldr d8, [%6] \n" // 载入8字节/2个数 到 d8 寄存器, d8 中有2个数
"vldr d0, [%5] \n"
"vldr d1, [%5, #8] \n"
"vldr d9, [%6, #8] \n" // %6移动8个字节,再载入两个8字节/2个数到d9
"vmla.f32 q8, q0, d8[0] \n" // q0表示4个数,q0=d0+d1, a[i] + (b[i] * c)
"vldr d2, [%5, #16] \n"