Mercurial > vec
comparison src/impl/x86/mmx.c @ 28:c6c99ab1088a
*: add min/max functions and a big big refactor (again)
agh, this time I added a few more implementations (and generally
made the code just a little faster...)
| author | Paper <paper@tflc.us> |
|---|---|
| date | Thu, 24 Apr 2025 00:54:02 -0400 |
| parents | e49e70f7012f |
| children | bf6ad516f1e6 |
comparison
equal
deleted
inserted
replaced
| 27:d00b95f95dd1 | 28:c6c99ab1088a |
|---|---|
| 22 * SOFTWARE. | 22 * SOFTWARE. |
| 23 **/ | 23 **/ |
| 24 | 24 |
| 25 #include "vec/vec.h" | 25 #include "vec/vec.h" |
| 26 #include "vec/impl/x86/mmx.h" | 26 #include "vec/impl/x86/mmx.h" |
| 27 #include "vec/impl/generic.h" | |
| 28 | 27 |
| 29 #include <mmintrin.h> | 28 #include <mmintrin.h> |
| 30 #include <string.h> | 29 #include <string.h> |
| 31 | 30 |
| 32 #define VEC_MMX_OPERATION_8x8(op, sign) \ | 31 /* ------------------------------------------------------------------------ */ |
| 33 do { \ | |
| 34 /* unpack and multiply */ \ | |
| 35 union v##sign##int8x8_impl_data *vec1d = (union v##sign##int8x8_impl_data *)&vec1; \ | |
| 36 union v##sign##int8x8_impl_data *vec2d = (union v##sign##int8x8_impl_data *)&vec2; \ | |
| 37 \ | |
| 38 __m64 dst_even = _mm_##op##_pi16(vec1d->mmx, vec2d->mmx); \ | |
| 39 __m64 dst_odd = _mm_##op##_pi16(_mm_srli_pi16(vec1d->mmx, 8), _mm_srli_pi16(vec2d->mmx, 8)); \ | |
| 40 \ | |
| 41 /* repack */ \ | |
| 42 vec1d->mmx = _mm_or_si64( \ | |
| 43 _mm_slli_pi16(dst_odd, 8), \ | |
| 44 _mm_srli_pi16(_mm_slli_pi16(dst_even, 8), 8) \ | |
| 45 ); \ | |
| 46 return vec1d->vec; \ | |
| 47 } while (0) | |
| 48 | 32 |
| 49 // shared between MMX variations | 33 #define VEC_MMX_MUL_8x8(sign) /* nothing */ |
| 50 #define VEC_MMX_MUL_8x8(sign) \ | |
| 51 VEC_MMX_OPERATION_8x8(mullo, sign) | |
| 52 | |
| 53 #define VEC_MMX_MUL_16x4(sign) \ | 34 #define VEC_MMX_MUL_16x4(sign) \ |
| 54 do { \ | 35 VEC_FUNC_IMPL v##sign##int16x4 v##sign##int16x4_mmx_mul(v##sign##int16x4 vec1, v##sign##int16x4 vec2) \ |
| 36 { \ | |
| 55 union v##sign##int16x4_impl_data *vec1d = (union v##sign##int16x4_impl_data *)&vec1; \ | 37 union v##sign##int16x4_impl_data *vec1d = (union v##sign##int16x4_impl_data *)&vec1; \ |
| 56 union vuint16x4_impl_data *vec2d = (union vuint16x4_impl_data *)&vec2; \ | 38 union vuint16x4_impl_data *vec2d = (union vuint16x4_impl_data *)&vec2; \ |
| 57 \ | 39 \ |
| 58 vec1d->mmx = _mm_mullo_pi16(vec1d->mmx, vec2d->mmx); \ | 40 vec1d->mmx = _mm_mullo_pi16(vec1d->mmx, vec2d->mmx); \ |
| 59 return vec1d->vec; \ | 41 return vec1d->vec; \ |
| 60 } while (0) | 42 } |
| 43 #define VEC_MMX_MUL_32x2(sign) /* nothing */ | |
| 61 | 44 |
| 62 #define VEC_MMX_MUL_32x2(sign) \ | 45 #define VEC_MMX_STRUCT_MUL_8x8(sign) NULL |
| 63 /* TODO implement this for real */ \ | 46 #define VEC_MMX_STRUCT_MUL_16x4(sign) v##sign##int16x4_mmx_mul |
| 64 do { \ | 47 #define VEC_MMX_STRUCT_MUL_32x8(sign) NULL |
| 65 return v##sign##int32x2_generic_mul(vec1, vec2); \ | 48 |
| 66 } while (0) | 49 /* ------------------------------------------------------------------------ */ |
| 50 /* comparison */ | |
| 51 | |
| 52 /* helper funcs */ | |
| 53 #define VEC_xMMX_CMP(name, op, sign, bits, size, first, second, VARS, TRANS1, TRANS2) \ | |
| 54 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_##name(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | |
| 55 { \ | |
| 56 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | |
| 57 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | |
| 58 VARS \ | |
| 59 \ | |
| 60 TRANS1 \ | |
| 61 \ | |
| 62 vec1d->mmx = _mm_##op##_pi##bits(vec##first##d->mmx, vec##second##d->mmx); \ | |
| 63 \ | |
| 64 TRANS2 \ | |
| 65 \ | |
| 66 return vec1d->vec; \ | |
| 67 } | |
| 68 | |
| 69 #define VEC_MMX_CMP(name, op, bits, size, first, second) \ | |
| 70 VEC_xMMX_CMP(name, op, /* nothing */, bits, size, first, second, /* nothing */, /* nothing */, /* nothing */) | |
| 71 | |
| 72 #define VEC_uMMX_CMP(name, op, bits, size, first, second) \ | |
| 73 VEC_xMMX_CMP(name, op, u, bits, size, first, second, \ | |
| 74 __m64 xor_val = _mm_set1_pi##bits(1u << (bits - 1)); \ | |
| 75 , { \ | |
| 76 vec1d->mmx = _mm_xor_si64(vec1d->mmx, xor_val); \ | |
| 77 vec2d->mmx = _mm_xor_si64(vec2d->mmx, xor_val); \ | |
| 78 }, \ | |
| 79 { \ | |
| 80 /* nothing */ \ | |
| 81 }) | |
| 82 | |
| 83 #define VEC_MMX_CMPEQ(sign, bits, size) VEC_xMMX_CMP(cmpeq, cmpeq, sign, bits, size, 1, 2, , ,) | |
| 84 #define VEC_MMX_CMPLT(sign, bits, size) VEC_##sign##MMX_CMP(cmplt, cmpgt, bits, size, 2, 1) | |
| 85 #define VEC_MMX_CMPGT(sign, bits, size) VEC_##sign##MMX_CMP(cmpgt, cmpgt, bits, size, 1, 2) | |
| 86 | |
| 87 /* ------------------------------------------------------------------------ */ | |
| 67 | 88 |
| 68 #define VEC_MMX_DEFINE_OPERATIONS_SIGN(sign, bits, size) \ | 89 #define VEC_MMX_DEFINE_OPERATIONS_SIGN(sign, bits, size) \ |
| 69 union v##sign##int##bits##x##size##_impl_data { \ | 90 union v##sign##int##bits##x##size##_impl_data { \ |
| 70 v##sign##int##bits##x##size vec; \ | 91 v##sign##int##bits##x##size vec; \ |
| 71 __m64 mmx; \ | 92 __m64 mmx; \ |
| 72 }; \ | 93 }; \ |
| 73 \ | 94 \ |
| 74 VEC_STATIC_ASSERT(VEC_ALIGNOF(__m64) <= VEC_ALIGNOF(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " alignment needs to be expanded to fit intrinsic type size"); \ | 95 VEC_STATIC_ASSERT(VEC_ALIGNOF(__m64) <= VEC_ALIGNOF(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " alignment needs to be expanded to fit intrinsic type size"); \ |
| 75 VEC_STATIC_ASSERT(sizeof(__m64) <= sizeof(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " needs to be expanded to fit intrinsic type size"); \ | 96 VEC_STATIC_ASSERT(sizeof(__m64) <= sizeof(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " needs to be expanded to fit intrinsic type size"); \ |
| 76 \ | 97 \ |
| 77 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_load_aligned(const vec_##sign##int##bits in[size]) \ | 98 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_load_aligned(const vec_##sign##int##bits in[size]) \ |
| 78 { \ | 99 { \ |
| 79 v##sign##int##bits##x##size vec; \ | 100 v##sign##int##bits##x##size vec; \ |
| 80 memcpy(&vec, in, sizeof(vec)); \ | 101 memcpy(&vec, in, sizeof(vec)); \ |
| 81 return vec; \ | 102 return vec; \ |
| 82 } \ | 103 } \ |
| 83 \ | 104 \ |
| 84 static void v##sign##int##bits##x##size##_mmx_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ | 105 VEC_FUNC_IMPL void v##sign##int##bits##x##size##_mmx_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ |
| 85 { \ | 106 { \ |
| 86 memcpy(out, &vec, sizeof(vec)); \ | 107 memcpy(out, &vec, sizeof(vec)); \ |
| 87 } \ | 108 } \ |
| 88 \ | 109 \ |
| 89 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 110 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 90 { \ | 111 { \ |
| 91 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 112 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 92 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 113 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 93 \ | 114 \ |
| 94 vec1d->mmx = _mm_add_pi##bits(vec1d->mmx, vec2d->mmx); \ | 115 vec1d->mmx = _mm_add_pi##bits(vec1d->mmx, vec2d->mmx); \ |
| 95 \ | 116 \ |
| 96 return vec1d->vec; \ | 117 return vec1d->vec; \ |
| 97 } \ | 118 } \ |
| 98 \ | 119 \ |
| 99 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 120 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 100 { \ | 121 { \ |
| 101 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 122 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 102 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 123 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 103 \ | 124 \ |
| 104 vec1d->mmx = _mm_sub_pi##bits(vec1d->mmx, vec2d->mmx); \ | 125 vec1d->mmx = _mm_sub_pi##bits(vec1d->mmx, vec2d->mmx); \ |
| 105 \ | 126 \ |
| 106 return vec1d->vec; \ | 127 return vec1d->vec; \ |
| 107 } \ | 128 } \ |
| 108 \ | 129 \ |
| 109 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_mul(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 130 VEC_MMX_MUL_##bits##x##size(sign) \ |
| 110 { \ | |
| 111 VEC_MMX_MUL_##bits##x##size(sign); \ | |
| 112 } \ | |
| 113 \ | 131 \ |
| 114 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 132 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 115 { \ | 133 { \ |
| 116 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 134 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 117 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 135 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 118 \ | 136 \ |
| 119 vec1d->mmx = _mm_and_si64(vec1d->mmx, vec2d->mmx); \ | 137 vec1d->mmx = _mm_and_si64(vec1d->mmx, vec2d->mmx); \ |
| 120 \ | 138 \ |
| 121 return vec1d->vec; \ | 139 return vec1d->vec; \ |
| 122 } \ | 140 } \ |
| 123 \ | 141 \ |
| 124 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 142 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 125 { \ | 143 { \ |
| 126 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 144 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 127 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 145 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 128 \ | 146 \ |
| 129 vec1d->mmx = _mm_or_si64(vec1d->mmx, vec2d->mmx); \ | 147 vec1d->mmx = _mm_or_si64(vec1d->mmx, vec2d->mmx); \ |
| 130 \ | 148 \ |
| 131 return vec1d->vec; \ | 149 return vec1d->vec; \ |
| 132 } \ | 150 } \ |
| 133 \ | 151 \ |
| 134 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 152 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 135 { \ | 153 { \ |
| 136 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 154 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 137 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 155 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 138 \ | 156 \ |
| 139 vec1d->mmx = _mm_xor_si64(vec1d->mmx, vec2d->mmx); \ | 157 vec1d->mmx = _mm_xor_si64(vec1d->mmx, vec2d->mmx); \ |
| 140 \ | 158 \ |
| 141 return vec1d->vec; \ | 159 return vec1d->vec; \ |
| 142 } \ | 160 } \ |
| 143 \ | 161 \ |
| 162 VEC_MMX_CMPEQ(sign, bits, size) \ | |
| 163 VEC_MMX_CMPLT(sign, bits, size) \ | |
| 164 VEC_MMX_CMPGT(sign, bits, size) \ | |
| 165 \ | |
| 144 const v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_mmx = { \ | 166 const v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_mmx = { \ |
| 145 v##sign##int##bits##x##size##_generic_splat, \ | 167 .load_aligned = v##sign##int##bits##x##size##_mmx_load_aligned, \ |
| 146 v##sign##int##bits##x##size##_mmx_load_aligned, \ | 168 .load = v##sign##int##bits##x##size##_mmx_load_aligned, \ |
| 147 v##sign##int##bits##x##size##_mmx_load_aligned, \ | 169 .store_aligned = v##sign##int##bits##x##size##_mmx_store_aligned, \ |
| 148 v##sign##int##bits##x##size##_mmx_store_aligned, \ | 170 .store = v##sign##int##bits##x##size##_mmx_store_aligned, \ |
| 149 v##sign##int##bits##x##size##_mmx_store_aligned, \ | 171 .add = v##sign##int##bits##x##size##_mmx_add, \ |
| 150 v##sign##int##bits##x##size##_mmx_add, \ | 172 .sub = v##sign##int##bits##x##size##_mmx_sub, \ |
| 151 v##sign##int##bits##x##size##_mmx_sub, \ | 173 .mul = VEC_MMX_STRUCT_MUL_8x8(sign), \ |
| 152 v##sign##int##bits##x##size##_mmx_mul, \ | 174 .band = v##sign##int##bits##x##size##_mmx_and, \ |
| 153 v##sign##int##bits##x##size##_generic_div, \ | 175 .bor = v##sign##int##bits##x##size##_mmx_or, \ |
| 154 v##sign##int##bits##x##size##_generic_avg, \ | 176 .bxor = v##sign##int##bits##x##size##_mmx_xor, \ |
| 155 v##sign##int##bits##x##size##_mmx_and, \ | 177 .cmpeq = v##sign##int##bits##x##size##_mmx_cmpeq, \ |
| 156 v##sign##int##bits##x##size##_mmx_or, \ | |
| 157 v##sign##int##bits##x##size##_mmx_xor, \ | |
| 158 v##sign##int##bits##x##size##_generic_not, \ | |
| 159 v##sign##int##bits##x##size##_generic_lshift, \ | |
| 160 v##sign##int##bits##x##size##_generic_rshift, \ | |
| 161 v##sign##int##bits##x##size##_generic_lrshift, \ | |
| 162 v##sign##int##bits##x##size##_generic_cmplt, \ | |
| 163 v##sign##int##bits##x##size##_generic_cmple, \ | |
| 164 v##sign##int##bits##x##size##_generic_cmpeq, \ | |
| 165 v##sign##int##bits##x##size##_generic_cmpge, \ | |
| 166 v##sign##int##bits##x##size##_generic_cmpgt, \ | |
| 167 }; | 178 }; |
| 168 | 179 |
| 169 #define VEC_MMX_DEFINE_OPERATIONS(bits, size) \ | 180 #define VEC_MMX_DEFINE_OPERATIONS(bits, size) \ |
| 170 VEC_MMX_DEFINE_OPERATIONS_SIGN(u, bits, size) \ | 181 VEC_MMX_DEFINE_OPERATIONS_SIGN(u, bits, size) \ |
| 171 VEC_MMX_DEFINE_OPERATIONS_SIGN( , bits, size) | 182 VEC_MMX_DEFINE_OPERATIONS_SIGN( , bits, size) |
