Mercurial > vec
comparison src/impl/x86/mmx.c @ 28:c6c99ab1088a
*: add min/max functions and a big big refactor (again)
agh, this time I added a few more implementations (and generally
made the code just a little faster...)
author | Paper <paper@tflc.us> |
---|---|
date | Thu, 24 Apr 2025 00:54:02 -0400 |
parents | e49e70f7012f |
children | bf6ad516f1e6 |
comparison
equal
deleted
inserted
replaced
27:d00b95f95dd1 | 28:c6c99ab1088a |
---|---|
22 * SOFTWARE. | 22 * SOFTWARE. |
23 **/ | 23 **/ |
24 | 24 |
25 #include "vec/vec.h" | 25 #include "vec/vec.h" |
26 #include "vec/impl/x86/mmx.h" | 26 #include "vec/impl/x86/mmx.h" |
27 #include "vec/impl/generic.h" | |
28 | 27 |
29 #include <mmintrin.h> | 28 #include <mmintrin.h> |
30 #include <string.h> | 29 #include <string.h> |
31 | 30 |
32 #define VEC_MMX_OPERATION_8x8(op, sign) \ | 31 /* ------------------------------------------------------------------------ */ |
33 do { \ | |
34 /* unpack and multiply */ \ | |
35 union v##sign##int8x8_impl_data *vec1d = (union v##sign##int8x8_impl_data *)&vec1; \ | |
36 union v##sign##int8x8_impl_data *vec2d = (union v##sign##int8x8_impl_data *)&vec2; \ | |
37 \ | |
38 __m64 dst_even = _mm_##op##_pi16(vec1d->mmx, vec2d->mmx); \ | |
39 __m64 dst_odd = _mm_##op##_pi16(_mm_srli_pi16(vec1d->mmx, 8), _mm_srli_pi16(vec2d->mmx, 8)); \ | |
40 \ | |
41 /* repack */ \ | |
42 vec1d->mmx = _mm_or_si64( \ | |
43 _mm_slli_pi16(dst_odd, 8), \ | |
44 _mm_srli_pi16(_mm_slli_pi16(dst_even, 8), 8) \ | |
45 ); \ | |
46 return vec1d->vec; \ | |
47 } while (0) | |
48 | 32 |
49 // shared between MMX variations | 33 #define VEC_MMX_MUL_8x8(sign) /* nothing */ |
50 #define VEC_MMX_MUL_8x8(sign) \ | |
51 VEC_MMX_OPERATION_8x8(mullo, sign) | |
52 | |
53 #define VEC_MMX_MUL_16x4(sign) \ | 34 #define VEC_MMX_MUL_16x4(sign) \ |
54 do { \ | 35 VEC_FUNC_IMPL v##sign##int16x4 v##sign##int16x4_mmx_mul(v##sign##int16x4 vec1, v##sign##int16x4 vec2) \ |
36 { \ | |
55 union v##sign##int16x4_impl_data *vec1d = (union v##sign##int16x4_impl_data *)&vec1; \ | 37 union v##sign##int16x4_impl_data *vec1d = (union v##sign##int16x4_impl_data *)&vec1; \ |
56 union vuint16x4_impl_data *vec2d = (union vuint16x4_impl_data *)&vec2; \ | 38 union vuint16x4_impl_data *vec2d = (union vuint16x4_impl_data *)&vec2; \ |
57 \ | 39 \ |
58 vec1d->mmx = _mm_mullo_pi16(vec1d->mmx, vec2d->mmx); \ | 40 vec1d->mmx = _mm_mullo_pi16(vec1d->mmx, vec2d->mmx); \ |
59 return vec1d->vec; \ | 41 return vec1d->vec; \ |
60 } while (0) | 42 } |
43 #define VEC_MMX_MUL_32x2(sign) /* nothing */ | |
61 | 44 |
62 #define VEC_MMX_MUL_32x2(sign) \ | 45 #define VEC_MMX_STRUCT_MUL_8x8(sign) NULL |
63 /* TODO implement this for real */ \ | 46 #define VEC_MMX_STRUCT_MUL_16x4(sign) v##sign##int16x4_mmx_mul |
64 do { \ | 47 #define VEC_MMX_STRUCT_MUL_32x8(sign) NULL |
65 return v##sign##int32x2_generic_mul(vec1, vec2); \ | 48 |
66 } while (0) | 49 /* ------------------------------------------------------------------------ */ |
50 /* comparison */ | |
51 | |
52 /* helper funcs */ | |
53 #define VEC_xMMX_CMP(name, op, sign, bits, size, first, second, VARS, TRANS1, TRANS2) \ | |
54 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_##name(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | |
55 { \ | |
56 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | |
57 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | |
58 VARS \ | |
59 \ | |
60 TRANS1 \ | |
61 \ | |
62 vec1d->mmx = _mm_##op##_pi##bits(vec##first##d->mmx, vec##second##d->mmx); \ | |
63 \ | |
64 TRANS2 \ | |
65 \ | |
66 return vec1d->vec; \ | |
67 } | |
68 | |
69 #define VEC_MMX_CMP(name, op, bits, size, first, second) \ | |
70 VEC_xMMX_CMP(name, op, /* nothing */, bits, size, first, second, /* nothing */, /* nothing */, /* nothing */) | |
71 | |
72 #define VEC_uMMX_CMP(name, op, bits, size, first, second) \ | |
73 VEC_xMMX_CMP(name, op, u, bits, size, first, second, \ | |
74 __m64 xor_val = _mm_set1_pi##bits(1u << (bits - 1)); \ | |
75 , { \ | |
76 vec1d->mmx = _mm_xor_si64(vec1d->mmx, xor_val); \ | |
77 vec2d->mmx = _mm_xor_si64(vec2d->mmx, xor_val); \ | |
78 }, \ | |
79 { \ | |
80 /* nothing */ \ | |
81 }) | |
82 | |
83 #define VEC_MMX_CMPEQ(sign, bits, size) VEC_xMMX_CMP(cmpeq, cmpeq, sign, bits, size, 1, 2, , ,) | |
84 #define VEC_MMX_CMPLT(sign, bits, size) VEC_##sign##MMX_CMP(cmplt, cmpgt, bits, size, 2, 1) | |
85 #define VEC_MMX_CMPGT(sign, bits, size) VEC_##sign##MMX_CMP(cmpgt, cmpgt, bits, size, 1, 2) | |
86 | |
87 /* ------------------------------------------------------------------------ */ | |
67 | 88 |
68 #define VEC_MMX_DEFINE_OPERATIONS_SIGN(sign, bits, size) \ | 89 #define VEC_MMX_DEFINE_OPERATIONS_SIGN(sign, bits, size) \ |
69 union v##sign##int##bits##x##size##_impl_data { \ | 90 union v##sign##int##bits##x##size##_impl_data { \ |
70 v##sign##int##bits##x##size vec; \ | 91 v##sign##int##bits##x##size vec; \ |
71 __m64 mmx; \ | 92 __m64 mmx; \ |
72 }; \ | 93 }; \ |
73 \ | 94 \ |
74 VEC_STATIC_ASSERT(VEC_ALIGNOF(__m64) <= VEC_ALIGNOF(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " alignment needs to be expanded to fit intrinsic type size"); \ | 95 VEC_STATIC_ASSERT(VEC_ALIGNOF(__m64) <= VEC_ALIGNOF(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " alignment needs to be expanded to fit intrinsic type size"); \ |
75 VEC_STATIC_ASSERT(sizeof(__m64) <= sizeof(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " needs to be expanded to fit intrinsic type size"); \ | 96 VEC_STATIC_ASSERT(sizeof(__m64) <= sizeof(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " needs to be expanded to fit intrinsic type size"); \ |
76 \ | 97 \ |
77 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_load_aligned(const vec_##sign##int##bits in[size]) \ | 98 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_load_aligned(const vec_##sign##int##bits in[size]) \ |
78 { \ | 99 { \ |
79 v##sign##int##bits##x##size vec; \ | 100 v##sign##int##bits##x##size vec; \ |
80 memcpy(&vec, in, sizeof(vec)); \ | 101 memcpy(&vec, in, sizeof(vec)); \ |
81 return vec; \ | 102 return vec; \ |
82 } \ | 103 } \ |
83 \ | 104 \ |
84 static void v##sign##int##bits##x##size##_mmx_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ | 105 VEC_FUNC_IMPL void v##sign##int##bits##x##size##_mmx_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ |
85 { \ | 106 { \ |
86 memcpy(out, &vec, sizeof(vec)); \ | 107 memcpy(out, &vec, sizeof(vec)); \ |
87 } \ | 108 } \ |
88 \ | 109 \ |
89 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 110 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
90 { \ | 111 { \ |
91 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 112 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
92 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 113 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
93 \ | 114 \ |
94 vec1d->mmx = _mm_add_pi##bits(vec1d->mmx, vec2d->mmx); \ | 115 vec1d->mmx = _mm_add_pi##bits(vec1d->mmx, vec2d->mmx); \ |
95 \ | 116 \ |
96 return vec1d->vec; \ | 117 return vec1d->vec; \ |
97 } \ | 118 } \ |
98 \ | 119 \ |
99 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 120 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
100 { \ | 121 { \ |
101 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 122 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
102 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 123 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
103 \ | 124 \ |
104 vec1d->mmx = _mm_sub_pi##bits(vec1d->mmx, vec2d->mmx); \ | 125 vec1d->mmx = _mm_sub_pi##bits(vec1d->mmx, vec2d->mmx); \ |
105 \ | 126 \ |
106 return vec1d->vec; \ | 127 return vec1d->vec; \ |
107 } \ | 128 } \ |
108 \ | 129 \ |
109 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_mul(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 130 VEC_MMX_MUL_##bits##x##size(sign) \ |
110 { \ | |
111 VEC_MMX_MUL_##bits##x##size(sign); \ | |
112 } \ | |
113 \ | 131 \ |
114 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 132 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
115 { \ | 133 { \ |
116 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 134 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
117 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 135 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
118 \ | 136 \ |
119 vec1d->mmx = _mm_and_si64(vec1d->mmx, vec2d->mmx); \ | 137 vec1d->mmx = _mm_and_si64(vec1d->mmx, vec2d->mmx); \ |
120 \ | 138 \ |
121 return vec1d->vec; \ | 139 return vec1d->vec; \ |
122 } \ | 140 } \ |
123 \ | 141 \ |
124 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 142 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
125 { \ | 143 { \ |
126 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 144 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
127 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 145 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
128 \ | 146 \ |
129 vec1d->mmx = _mm_or_si64(vec1d->mmx, vec2d->mmx); \ | 147 vec1d->mmx = _mm_or_si64(vec1d->mmx, vec2d->mmx); \ |
130 \ | 148 \ |
131 return vec1d->vec; \ | 149 return vec1d->vec; \ |
132 } \ | 150 } \ |
133 \ | 151 \ |
134 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 152 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
135 { \ | 153 { \ |
136 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 154 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
137 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 155 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
138 \ | 156 \ |
139 vec1d->mmx = _mm_xor_si64(vec1d->mmx, vec2d->mmx); \ | 157 vec1d->mmx = _mm_xor_si64(vec1d->mmx, vec2d->mmx); \ |
140 \ | 158 \ |
141 return vec1d->vec; \ | 159 return vec1d->vec; \ |
142 } \ | 160 } \ |
143 \ | 161 \ |
162 VEC_MMX_CMPEQ(sign, bits, size) \ | |
163 VEC_MMX_CMPLT(sign, bits, size) \ | |
164 VEC_MMX_CMPGT(sign, bits, size) \ | |
165 \ | |
144 const v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_mmx = { \ | 166 const v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_mmx = { \ |
145 v##sign##int##bits##x##size##_generic_splat, \ | 167 .load_aligned = v##sign##int##bits##x##size##_mmx_load_aligned, \ |
146 v##sign##int##bits##x##size##_mmx_load_aligned, \ | 168 .load = v##sign##int##bits##x##size##_mmx_load_aligned, \ |
147 v##sign##int##bits##x##size##_mmx_load_aligned, \ | 169 .store_aligned = v##sign##int##bits##x##size##_mmx_store_aligned, \ |
148 v##sign##int##bits##x##size##_mmx_store_aligned, \ | 170 .store = v##sign##int##bits##x##size##_mmx_store_aligned, \ |
149 v##sign##int##bits##x##size##_mmx_store_aligned, \ | 171 .add = v##sign##int##bits##x##size##_mmx_add, \ |
150 v##sign##int##bits##x##size##_mmx_add, \ | 172 .sub = v##sign##int##bits##x##size##_mmx_sub, \ |
151 v##sign##int##bits##x##size##_mmx_sub, \ | 173 .mul = VEC_MMX_STRUCT_MUL_8x8(sign), \ |
152 v##sign##int##bits##x##size##_mmx_mul, \ | 174 .band = v##sign##int##bits##x##size##_mmx_and, \ |
153 v##sign##int##bits##x##size##_generic_div, \ | 175 .bor = v##sign##int##bits##x##size##_mmx_or, \ |
154 v##sign##int##bits##x##size##_generic_avg, \ | 176 .bxor = v##sign##int##bits##x##size##_mmx_xor, \ |
155 v##sign##int##bits##x##size##_mmx_and, \ | 177 .cmpeq = v##sign##int##bits##x##size##_mmx_cmpeq, \ |
156 v##sign##int##bits##x##size##_mmx_or, \ | |
157 v##sign##int##bits##x##size##_mmx_xor, \ | |
158 v##sign##int##bits##x##size##_generic_not, \ | |
159 v##sign##int##bits##x##size##_generic_lshift, \ | |
160 v##sign##int##bits##x##size##_generic_rshift, \ | |
161 v##sign##int##bits##x##size##_generic_lrshift, \ | |
162 v##sign##int##bits##x##size##_generic_cmplt, \ | |
163 v##sign##int##bits##x##size##_generic_cmple, \ | |
164 v##sign##int##bits##x##size##_generic_cmpeq, \ | |
165 v##sign##int##bits##x##size##_generic_cmpge, \ | |
166 v##sign##int##bits##x##size##_generic_cmpgt, \ | |
167 }; | 178 }; |
168 | 179 |
169 #define VEC_MMX_DEFINE_OPERATIONS(bits, size) \ | 180 #define VEC_MMX_DEFINE_OPERATIONS(bits, size) \ |
170 VEC_MMX_DEFINE_OPERATIONS_SIGN(u, bits, size) \ | 181 VEC_MMX_DEFINE_OPERATIONS_SIGN(u, bits, size) \ |
171 VEC_MMX_DEFINE_OPERATIONS_SIGN( , bits, size) | 182 VEC_MMX_DEFINE_OPERATIONS_SIGN( , bits, size) |