code

"vld1.f32  {d16-d17}, [%1]       \n"       // vld1.f32, 从 %1 载入128bit 

// float *destptr1 = c + ldc;
"vld1.f32   {d18-d19}, [%2]       \n"

// float *destptr2 = c + 2 * ldc;
"vld1.f32   {d20-d21}, [%3]       \n"

// float *destptr3 = c + 3 * ldc;
"vld1.f32   {d22-d23}, [%4]       \n"

"pld        [%5, #512]            \n"       // 预载入
"pld        [%6, #512]            \n"
"vldr	d8, [%6]		\n"                 // 载入8字节/2个数 到 d8 寄存器, d8 中有2个数
"vldr   	d0, [%5]        	\n"         
"vldr   	d1, [%5, #8]		\n"
"vldr	d9, [%6, #8]		    \n"         // %6移动8个字节,再载入两个8字节/2个数到d9
"vmla.f32   q8, q0, d8[0]         \n"       // q0表示4个数,q0=d0+d1, a[i] + (b[i] * c)
"vldr       d2, [%5, #16]		\n"