Optimize _mm_mulhi_epi16/_mm_mulhi_epu16 (emscripten-core#14693)

Maratyszcza · web-flow · commit fe8c9bfa5bfd · 2021-07-20T11:39:27.000-07:00
Use extended multiplication instructions from the final WebAssembly SIMD
specification for emulation of these intrinsics
diff --git a/site/source/docs/porting/simd.rst b/site/source/docs/porting/simd.rst
@@ -593,9 +593,9 @@ The following table highlights the availability and expected performance of diff
    * - _mm_mul_sd
      - ⚠️ emulated with a shuffle
    * - _mm_mulhi_epi16
-     - ⚠️ emulated with a SIMD four widen+two mul+generic shuffle
+     - ⚠️ emulated with a 2x SIMD extmul+generic shuffle
    * - _mm_mulhi_epu16
-     - ⚠️ emulated with a SIMD four widen+two mul+generic shuffle
+     - ⚠️ emulated with a 2x SIMD extmul+generic shuffle
    * - _mm_mullo_epi16
      - ✅ wasm_i16x8_mul
    * - _mm_or_pd
diff --git a/system/include/compat/emmintrin.h b/system/include/compat/emmintrin.h
@@ -678,20 +678,16 @@ _mm_min_epu8(__m128i __a, __m128i __b)
 static __inline__ __m128i __attribute__((__always_inline__, __nodebug__))
 _mm_mulhi_epi16(__m128i __a, __m128i __b)
 {
-  const v128_t lo = wasm_i32x4_mul(wasm_i32x4_widen_low_i16x8((v128_t)__a),
-                                   wasm_i32x4_widen_low_i16x8((v128_t)__b));
-  const v128_t hi = wasm_i32x4_mul(wasm_i32x4_widen_high_i16x8((v128_t)__a),
-                                   wasm_i32x4_widen_high_i16x8((v128_t)__b));
+  const v128_t lo = wasm_i32x4_extmul_low_i16x8((v128_t)__a, (v128_t)__b);
+  const v128_t hi = wasm_i32x4_extmul_high_i16x8((v128_t)__a, (v128_t)__b);
   return (__m128i)wasm_i16x8_shuffle(lo, hi, 1, 3, 5, 7, 9, 11, 13, 15);
 }
 
 static __inline__ __m128i __attribute__((__always_inline__, __nodebug__))
 _mm_mulhi_epu16(__m128i __a, __m128i __b)
 {
-  const v128_t lo = wasm_i32x4_mul(wasm_u32x4_extend_low_u16x8((v128_t)__a),
-                                   wasm_u32x4_extend_low_u16x8((v128_t)__b));
-  const v128_t hi = wasm_i32x4_mul(wasm_u32x4_extend_high_u16x8((v128_t)__a),
-                                   wasm_u32x4_extend_high_u16x8((v128_t)__b));
+  const v128_t lo = wasm_u32x4_extmul_low_u16x8((v128_t)__a, (v128_t)__b);
+  const v128_t hi = wasm_u32x4_extmul_high_u16x8((v128_t)__a, (v128_t)__b);
   return (__m128i)wasm_i16x8_shuffle(lo, hi, 1, 3, 5, 7, 9, 11, 13, 15);
 }
 

Original file line number	Diff line number	Diff line change
`@@ -678,20 +678,16 @@ _mm_min_epu8(__m128i __a, __m128i __b)`
`678`	`678`	`static __inline__ __m128i __attribute__((__always_inline__, __nodebug__))`
`679`	`679`	`_mm_mulhi_epi16(__m128i __a, __m128i __b)`
`680`	`680`	`{`
`681`		`- const v128_t lo = wasm_i32x4_mul(wasm_i32x4_widen_low_i16x8((v128_t)__a),`
`682`		`- wasm_i32x4_widen_low_i16x8((v128_t)__b));`
`683`		`- const v128_t hi = wasm_i32x4_mul(wasm_i32x4_widen_high_i16x8((v128_t)__a),`
`684`		`- wasm_i32x4_widen_high_i16x8((v128_t)__b));`
	`681`	`+ const v128_t lo = wasm_i32x4_extmul_low_i16x8((v128_t)__a, (v128_t)__b);`
	`682`	`+ const v128_t hi = wasm_i32x4_extmul_high_i16x8((v128_t)__a, (v128_t)__b);`
`685`	`683`	`return (__m128i)wasm_i16x8_shuffle(lo, hi, 1, 3, 5, 7, 9, 11, 13, 15);`
`686`	`684`	`}`
`687`	`685`
`688`	`686`	`static __inline__ __m128i __attribute__((__always_inline__, __nodebug__))`
`689`	`687`	`_mm_mulhi_epu16(__m128i __a, __m128i __b)`
`690`	`688`	`{`
`691`		`- const v128_t lo = wasm_i32x4_mul(wasm_u32x4_extend_low_u16x8((v128_t)__a),`
`692`		`- wasm_u32x4_extend_low_u16x8((v128_t)__b));`
`693`		`- const v128_t hi = wasm_i32x4_mul(wasm_u32x4_extend_high_u16x8((v128_t)__a),`
`694`		`- wasm_u32x4_extend_high_u16x8((v128_t)__b));`
	`689`	`+ const v128_t lo = wasm_u32x4_extmul_low_u16x8((v128_t)__a, (v128_t)__b);`
	`690`	`+ const v128_t hi = wasm_u32x4_extmul_high_u16x8((v128_t)__a, (v128_t)__b);`
`695`	`691`	`return (__m128i)wasm_i16x8_shuffle(lo, hi, 1, 3, 5, 7, 9, 11, 13, 15);`
`696`	`692`	`}`
`697`	`693`