Mercurial > vec
comparison src/impl/x86/mmx.c @ 31:bf6ad516f1e6
Backed out changeset c6c99ab1088a
| author | Paper <paper@tflc.us> |
|---|---|
| date | Fri, 25 Apr 2025 17:40:33 -0400 |
| parents | c6c99ab1088a |
| children | 99e4539f922f |
comparison
equal
deleted
inserted
replaced
| 30:641d8c79b1da | 31:bf6ad516f1e6 |
|---|---|
| 22 * SOFTWARE. | 22 * SOFTWARE. |
| 23 **/ | 23 **/ |
| 24 | 24 |
| 25 #include "vec/vec.h" | 25 #include "vec/vec.h" |
| 26 #include "vec/impl/x86/mmx.h" | 26 #include "vec/impl/x86/mmx.h" |
| 27 #include "vec/impl/generic.h" | |
| 27 | 28 |
| 28 #include <mmintrin.h> | 29 #include <mmintrin.h> |
| 29 #include <string.h> | 30 #include <string.h> |
| 30 | 31 |
| 31 /* ------------------------------------------------------------------------ */ | 32 #define VEC_MMX_OPERATION_8x8(op, sign) \ |
| 33 do { \ | |
| 34 /* unpack and multiply */ \ | |
| 35 union v##sign##int8x8_impl_data *vec1d = (union v##sign##int8x8_impl_data *)&vec1; \ | |
| 36 union v##sign##int8x8_impl_data *vec2d = (union v##sign##int8x8_impl_data *)&vec2; \ | |
| 37 \ | |
| 38 __m64 dst_even = _mm_##op##_pi16(vec1d->mmx, vec2d->mmx); \ | |
| 39 __m64 dst_odd = _mm_##op##_pi16(_mm_srli_pi16(vec1d->mmx, 8), _mm_srli_pi16(vec2d->mmx, 8)); \ | |
| 40 \ | |
| 41 /* repack */ \ | |
| 42 vec1d->mmx = _mm_or_si64( \ | |
| 43 _mm_slli_pi16(dst_odd, 8), \ | |
| 44 _mm_srli_pi16(_mm_slli_pi16(dst_even, 8), 8) \ | |
| 45 ); \ | |
| 46 return vec1d->vec; \ | |
| 47 } while (0) | |
| 32 | 48 |
| 33 #define VEC_MMX_MUL_8x8(sign) /* nothing */ | 49 // shared between MMX variations |
| 50 #define VEC_MMX_MUL_8x8(sign) \ | |
| 51 VEC_MMX_OPERATION_8x8(mullo, sign) | |
| 52 | |
| 34 #define VEC_MMX_MUL_16x4(sign) \ | 53 #define VEC_MMX_MUL_16x4(sign) \ |
| 35 VEC_FUNC_IMPL v##sign##int16x4 v##sign##int16x4_mmx_mul(v##sign##int16x4 vec1, v##sign##int16x4 vec2) \ | 54 do { \ |
| 36 { \ | |
| 37 union v##sign##int16x4_impl_data *vec1d = (union v##sign##int16x4_impl_data *)&vec1; \ | 55 union v##sign##int16x4_impl_data *vec1d = (union v##sign##int16x4_impl_data *)&vec1; \ |
| 38 union vuint16x4_impl_data *vec2d = (union vuint16x4_impl_data *)&vec2; \ | 56 union vuint16x4_impl_data *vec2d = (union vuint16x4_impl_data *)&vec2; \ |
| 39 \ | 57 \ |
| 40 vec1d->mmx = _mm_mullo_pi16(vec1d->mmx, vec2d->mmx); \ | 58 vec1d->mmx = _mm_mullo_pi16(vec1d->mmx, vec2d->mmx); \ |
| 41 return vec1d->vec; \ | 59 return vec1d->vec; \ |
| 42 } | 60 } while (0) |
| 43 #define VEC_MMX_MUL_32x2(sign) /* nothing */ | |
| 44 | 61 |
| 45 #define VEC_MMX_STRUCT_MUL_8x8(sign) NULL | 62 #define VEC_MMX_MUL_32x2(sign) \ |
| 46 #define VEC_MMX_STRUCT_MUL_16x4(sign) v##sign##int16x4_mmx_mul | 63 /* TODO implement this for real */ \ |
| 47 #define VEC_MMX_STRUCT_MUL_32x8(sign) NULL | 64 do { \ |
| 48 | 65 return v##sign##int32x2_generic_mul(vec1, vec2); \ |
| 49 /* ------------------------------------------------------------------------ */ | 66 } while (0) |
| 50 /* comparison */ | |
| 51 | |
| 52 /* helper funcs */ | |
| 53 #define VEC_xMMX_CMP(name, op, sign, bits, size, first, second, VARS, TRANS1, TRANS2) \ | |
| 54 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_##name(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | |
| 55 { \ | |
| 56 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | |
| 57 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | |
| 58 VARS \ | |
| 59 \ | |
| 60 TRANS1 \ | |
| 61 \ | |
| 62 vec1d->mmx = _mm_##op##_pi##bits(vec##first##d->mmx, vec##second##d->mmx); \ | |
| 63 \ | |
| 64 TRANS2 \ | |
| 65 \ | |
| 66 return vec1d->vec; \ | |
| 67 } | |
| 68 | |
| 69 #define VEC_MMX_CMP(name, op, bits, size, first, second) \ | |
| 70 VEC_xMMX_CMP(name, op, /* nothing */, bits, size, first, second, /* nothing */, /* nothing */, /* nothing */) | |
| 71 | |
| 72 #define VEC_uMMX_CMP(name, op, bits, size, first, second) \ | |
| 73 VEC_xMMX_CMP(name, op, u, bits, size, first, second, \ | |
| 74 __m64 xor_val = _mm_set1_pi##bits(1u << (bits - 1)); \ | |
| 75 , { \ | |
| 76 vec1d->mmx = _mm_xor_si64(vec1d->mmx, xor_val); \ | |
| 77 vec2d->mmx = _mm_xor_si64(vec2d->mmx, xor_val); \ | |
| 78 }, \ | |
| 79 { \ | |
| 80 /* nothing */ \ | |
| 81 }) | |
| 82 | |
| 83 #define VEC_MMX_CMPEQ(sign, bits, size) VEC_xMMX_CMP(cmpeq, cmpeq, sign, bits, size, 1, 2, , ,) | |
| 84 #define VEC_MMX_CMPLT(sign, bits, size) VEC_##sign##MMX_CMP(cmplt, cmpgt, bits, size, 2, 1) | |
| 85 #define VEC_MMX_CMPGT(sign, bits, size) VEC_##sign##MMX_CMP(cmpgt, cmpgt, bits, size, 1, 2) | |
| 86 | |
| 87 /* ------------------------------------------------------------------------ */ | |
| 88 | 67 |
| 89 #define VEC_MMX_DEFINE_OPERATIONS_SIGN(sign, bits, size) \ | 68 #define VEC_MMX_DEFINE_OPERATIONS_SIGN(sign, bits, size) \ |
| 90 union v##sign##int##bits##x##size##_impl_data { \ | 69 union v##sign##int##bits##x##size##_impl_data { \ |
| 91 v##sign##int##bits##x##size vec; \ | 70 v##sign##int##bits##x##size vec; \ |
| 92 __m64 mmx; \ | 71 __m64 mmx; \ |
| 93 }; \ | 72 }; \ |
| 94 \ | 73 \ |
| 95 VEC_STATIC_ASSERT(VEC_ALIGNOF(__m64) <= VEC_ALIGNOF(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " alignment needs to be expanded to fit intrinsic type size"); \ | 74 VEC_STATIC_ASSERT(VEC_ALIGNOF(__m64) <= VEC_ALIGNOF(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " alignment needs to be expanded to fit intrinsic type size"); \ |
| 96 VEC_STATIC_ASSERT(sizeof(__m64) <= sizeof(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " needs to be expanded to fit intrinsic type size"); \ | 75 VEC_STATIC_ASSERT(sizeof(__m64) <= sizeof(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " needs to be expanded to fit intrinsic type size"); \ |
| 97 \ | 76 \ |
| 98 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_load_aligned(const vec_##sign##int##bits in[size]) \ | 77 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_load_aligned(const vec_##sign##int##bits in[size]) \ |
| 99 { \ | 78 { \ |
| 100 v##sign##int##bits##x##size vec; \ | 79 v##sign##int##bits##x##size vec; \ |
| 101 memcpy(&vec, in, sizeof(vec)); \ | 80 memcpy(&vec, in, sizeof(vec)); \ |
| 102 return vec; \ | 81 return vec; \ |
| 103 } \ | 82 } \ |
| 104 \ | 83 \ |
| 105 VEC_FUNC_IMPL void v##sign##int##bits##x##size##_mmx_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ | 84 static void v##sign##int##bits##x##size##_mmx_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ |
| 106 { \ | 85 { \ |
| 107 memcpy(out, &vec, sizeof(vec)); \ | 86 memcpy(out, &vec, sizeof(vec)); \ |
| 108 } \ | 87 } \ |
| 109 \ | 88 \ |
| 110 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 89 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 111 { \ | 90 { \ |
| 112 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 91 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 113 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 92 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 114 \ | 93 \ |
| 115 vec1d->mmx = _mm_add_pi##bits(vec1d->mmx, vec2d->mmx); \ | 94 vec1d->mmx = _mm_add_pi##bits(vec1d->mmx, vec2d->mmx); \ |
| 116 \ | 95 \ |
| 117 return vec1d->vec; \ | 96 return vec1d->vec; \ |
| 118 } \ | 97 } \ |
| 119 \ | 98 \ |
| 120 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 99 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 121 { \ | 100 { \ |
| 122 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 101 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 123 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 102 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 124 \ | 103 \ |
| 125 vec1d->mmx = _mm_sub_pi##bits(vec1d->mmx, vec2d->mmx); \ | 104 vec1d->mmx = _mm_sub_pi##bits(vec1d->mmx, vec2d->mmx); \ |
| 126 \ | 105 \ |
| 127 return vec1d->vec; \ | 106 return vec1d->vec; \ |
| 128 } \ | 107 } \ |
| 129 \ | 108 \ |
| 130 VEC_MMX_MUL_##bits##x##size(sign) \ | 109 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_mul(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 110 { \ | |
| 111 VEC_MMX_MUL_##bits##x##size(sign); \ | |
| 112 } \ | |
| 131 \ | 113 \ |
| 132 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 114 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 133 { \ | 115 { \ |
| 134 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 116 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 135 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 117 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 136 \ | 118 \ |
| 137 vec1d->mmx = _mm_and_si64(vec1d->mmx, vec2d->mmx); \ | 119 vec1d->mmx = _mm_and_si64(vec1d->mmx, vec2d->mmx); \ |
| 138 \ | 120 \ |
| 139 return vec1d->vec; \ | 121 return vec1d->vec; \ |
| 140 } \ | 122 } \ |
| 141 \ | 123 \ |
| 142 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 124 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 143 { \ | 125 { \ |
| 144 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 126 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 145 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 127 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 146 \ | 128 \ |
| 147 vec1d->mmx = _mm_or_si64(vec1d->mmx, vec2d->mmx); \ | 129 vec1d->mmx = _mm_or_si64(vec1d->mmx, vec2d->mmx); \ |
| 148 \ | 130 \ |
| 149 return vec1d->vec; \ | 131 return vec1d->vec; \ |
| 150 } \ | 132 } \ |
| 151 \ | 133 \ |
| 152 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 134 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 153 { \ | 135 { \ |
| 154 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 136 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 155 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 137 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 156 \ | 138 \ |
| 157 vec1d->mmx = _mm_xor_si64(vec1d->mmx, vec2d->mmx); \ | 139 vec1d->mmx = _mm_xor_si64(vec1d->mmx, vec2d->mmx); \ |
| 158 \ | 140 \ |
| 159 return vec1d->vec; \ | 141 return vec1d->vec; \ |
| 160 } \ | 142 } \ |
| 161 \ | 143 \ |
| 162 VEC_MMX_CMPEQ(sign, bits, size) \ | |
| 163 VEC_MMX_CMPLT(sign, bits, size) \ | |
| 164 VEC_MMX_CMPGT(sign, bits, size) \ | |
| 165 \ | |
| 166 const v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_mmx = { \ | 144 const v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_mmx = { \ |
| 167 .load_aligned = v##sign##int##bits##x##size##_mmx_load_aligned, \ | 145 v##sign##int##bits##x##size##_generic_splat, \ |
| 168 .load = v##sign##int##bits##x##size##_mmx_load_aligned, \ | 146 v##sign##int##bits##x##size##_mmx_load_aligned, \ |
| 169 .store_aligned = v##sign##int##bits##x##size##_mmx_store_aligned, \ | 147 v##sign##int##bits##x##size##_mmx_load_aligned, \ |
| 170 .store = v##sign##int##bits##x##size##_mmx_store_aligned, \ | 148 v##sign##int##bits##x##size##_mmx_store_aligned, \ |
| 171 .add = v##sign##int##bits##x##size##_mmx_add, \ | 149 v##sign##int##bits##x##size##_mmx_store_aligned, \ |
| 172 .sub = v##sign##int##bits##x##size##_mmx_sub, \ | 150 v##sign##int##bits##x##size##_mmx_add, \ |
| 173 .mul = VEC_MMX_STRUCT_MUL_8x8(sign), \ | 151 v##sign##int##bits##x##size##_mmx_sub, \ |
| 174 .band = v##sign##int##bits##x##size##_mmx_and, \ | 152 v##sign##int##bits##x##size##_mmx_mul, \ |
| 175 .bor = v##sign##int##bits##x##size##_mmx_or, \ | 153 v##sign##int##bits##x##size##_generic_div, \ |
| 176 .bxor = v##sign##int##bits##x##size##_mmx_xor, \ | 154 v##sign##int##bits##x##size##_generic_avg, \ |
| 177 .cmpeq = v##sign##int##bits##x##size##_mmx_cmpeq, \ | 155 v##sign##int##bits##x##size##_mmx_and, \ |
| 156 v##sign##int##bits##x##size##_mmx_or, \ | |
| 157 v##sign##int##bits##x##size##_mmx_xor, \ | |
| 158 v##sign##int##bits##x##size##_generic_not, \ | |
| 159 v##sign##int##bits##x##size##_generic_lshift, \ | |
| 160 v##sign##int##bits##x##size##_generic_rshift, \ | |
| 161 v##sign##int##bits##x##size##_generic_lrshift, \ | |
| 162 v##sign##int##bits##x##size##_generic_cmplt, \ | |
| 163 v##sign##int##bits##x##size##_generic_cmple, \ | |
| 164 v##sign##int##bits##x##size##_generic_cmpeq, \ | |
| 165 v##sign##int##bits##x##size##_generic_cmpge, \ | |
| 166 v##sign##int##bits##x##size##_generic_cmpgt, \ | |
| 178 }; | 167 }; |
| 179 | 168 |
| 180 #define VEC_MMX_DEFINE_OPERATIONS(bits, size) \ | 169 #define VEC_MMX_DEFINE_OPERATIONS(bits, size) \ |
| 181 VEC_MMX_DEFINE_OPERATIONS_SIGN(u, bits, size) \ | 170 VEC_MMX_DEFINE_OPERATIONS_SIGN(u, bits, size) \ |
| 182 VEC_MMX_DEFINE_OPERATIONS_SIGN( , bits, size) | 171 VEC_MMX_DEFINE_OPERATIONS_SIGN( , bits, size) |
