Mercurial > vec
comparison src/impl/x86/mmx.c @ 31:bf6ad516f1e6
Backed out changeset c6c99ab1088a
author | Paper <paper@tflc.us> |
---|---|
date | Fri, 25 Apr 2025 17:40:33 -0400 |
parents | c6c99ab1088a |
children | 99e4539f922f |
comparison
equal
deleted
inserted
replaced
30:641d8c79b1da | 31:bf6ad516f1e6 |
---|---|
22 * SOFTWARE. | 22 * SOFTWARE. |
23 **/ | 23 **/ |
24 | 24 |
25 #include "vec/vec.h" | 25 #include "vec/vec.h" |
26 #include "vec/impl/x86/mmx.h" | 26 #include "vec/impl/x86/mmx.h" |
27 #include "vec/impl/generic.h" | |
27 | 28 |
28 #include <mmintrin.h> | 29 #include <mmintrin.h> |
29 #include <string.h> | 30 #include <string.h> |
30 | 31 |
31 /* ------------------------------------------------------------------------ */ | 32 #define VEC_MMX_OPERATION_8x8(op, sign) \ |
33 do { \ | |
34 /* unpack and multiply */ \ | |
35 union v##sign##int8x8_impl_data *vec1d = (union v##sign##int8x8_impl_data *)&vec1; \ | |
36 union v##sign##int8x8_impl_data *vec2d = (union v##sign##int8x8_impl_data *)&vec2; \ | |
37 \ | |
38 __m64 dst_even = _mm_##op##_pi16(vec1d->mmx, vec2d->mmx); \ | |
39 __m64 dst_odd = _mm_##op##_pi16(_mm_srli_pi16(vec1d->mmx, 8), _mm_srli_pi16(vec2d->mmx, 8)); \ | |
40 \ | |
41 /* repack */ \ | |
42 vec1d->mmx = _mm_or_si64( \ | |
43 _mm_slli_pi16(dst_odd, 8), \ | |
44 _mm_srli_pi16(_mm_slli_pi16(dst_even, 8), 8) \ | |
45 ); \ | |
46 return vec1d->vec; \ | |
47 } while (0) | |
32 | 48 |
33 #define VEC_MMX_MUL_8x8(sign) /* nothing */ | 49 // shared between MMX variations |
50 #define VEC_MMX_MUL_8x8(sign) \ | |
51 VEC_MMX_OPERATION_8x8(mullo, sign) | |
52 | |
34 #define VEC_MMX_MUL_16x4(sign) \ | 53 #define VEC_MMX_MUL_16x4(sign) \ |
35 VEC_FUNC_IMPL v##sign##int16x4 v##sign##int16x4_mmx_mul(v##sign##int16x4 vec1, v##sign##int16x4 vec2) \ | 54 do { \ |
36 { \ | |
37 union v##sign##int16x4_impl_data *vec1d = (union v##sign##int16x4_impl_data *)&vec1; \ | 55 union v##sign##int16x4_impl_data *vec1d = (union v##sign##int16x4_impl_data *)&vec1; \ |
38 union vuint16x4_impl_data *vec2d = (union vuint16x4_impl_data *)&vec2; \ | 56 union vuint16x4_impl_data *vec2d = (union vuint16x4_impl_data *)&vec2; \ |
39 \ | 57 \ |
40 vec1d->mmx = _mm_mullo_pi16(vec1d->mmx, vec2d->mmx); \ | 58 vec1d->mmx = _mm_mullo_pi16(vec1d->mmx, vec2d->mmx); \ |
41 return vec1d->vec; \ | 59 return vec1d->vec; \ |
42 } | 60 } while (0) |
43 #define VEC_MMX_MUL_32x2(sign) /* nothing */ | |
44 | 61 |
45 #define VEC_MMX_STRUCT_MUL_8x8(sign) NULL | 62 #define VEC_MMX_MUL_32x2(sign) \ |
46 #define VEC_MMX_STRUCT_MUL_16x4(sign) v##sign##int16x4_mmx_mul | 63 /* TODO implement this for real */ \ |
47 #define VEC_MMX_STRUCT_MUL_32x8(sign) NULL | 64 do { \ |
48 | 65 return v##sign##int32x2_generic_mul(vec1, vec2); \ |
49 /* ------------------------------------------------------------------------ */ | 66 } while (0) |
50 /* comparison */ | |
51 | |
52 /* helper funcs */ | |
53 #define VEC_xMMX_CMP(name, op, sign, bits, size, first, second, VARS, TRANS1, TRANS2) \ | |
54 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_##name(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | |
55 { \ | |
56 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | |
57 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | |
58 VARS \ | |
59 \ | |
60 TRANS1 \ | |
61 \ | |
62 vec1d->mmx = _mm_##op##_pi##bits(vec##first##d->mmx, vec##second##d->mmx); \ | |
63 \ | |
64 TRANS2 \ | |
65 \ | |
66 return vec1d->vec; \ | |
67 } | |
68 | |
69 #define VEC_MMX_CMP(name, op, bits, size, first, second) \ | |
70 VEC_xMMX_CMP(name, op, /* nothing */, bits, size, first, second, /* nothing */, /* nothing */, /* nothing */) | |
71 | |
72 #define VEC_uMMX_CMP(name, op, bits, size, first, second) \ | |
73 VEC_xMMX_CMP(name, op, u, bits, size, first, second, \ | |
74 __m64 xor_val = _mm_set1_pi##bits(1u << (bits - 1)); \ | |
75 , { \ | |
76 vec1d->mmx = _mm_xor_si64(vec1d->mmx, xor_val); \ | |
77 vec2d->mmx = _mm_xor_si64(vec2d->mmx, xor_val); \ | |
78 }, \ | |
79 { \ | |
80 /* nothing */ \ | |
81 }) | |
82 | |
83 #define VEC_MMX_CMPEQ(sign, bits, size) VEC_xMMX_CMP(cmpeq, cmpeq, sign, bits, size, 1, 2, , ,) | |
84 #define VEC_MMX_CMPLT(sign, bits, size) VEC_##sign##MMX_CMP(cmplt, cmpgt, bits, size, 2, 1) | |
85 #define VEC_MMX_CMPGT(sign, bits, size) VEC_##sign##MMX_CMP(cmpgt, cmpgt, bits, size, 1, 2) | |
86 | |
87 /* ------------------------------------------------------------------------ */ | |
88 | 67 |
89 #define VEC_MMX_DEFINE_OPERATIONS_SIGN(sign, bits, size) \ | 68 #define VEC_MMX_DEFINE_OPERATIONS_SIGN(sign, bits, size) \ |
90 union v##sign##int##bits##x##size##_impl_data { \ | 69 union v##sign##int##bits##x##size##_impl_data { \ |
91 v##sign##int##bits##x##size vec; \ | 70 v##sign##int##bits##x##size vec; \ |
92 __m64 mmx; \ | 71 __m64 mmx; \ |
93 }; \ | 72 }; \ |
94 \ | 73 \ |
95 VEC_STATIC_ASSERT(VEC_ALIGNOF(__m64) <= VEC_ALIGNOF(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " alignment needs to be expanded to fit intrinsic type size"); \ | 74 VEC_STATIC_ASSERT(VEC_ALIGNOF(__m64) <= VEC_ALIGNOF(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " alignment needs to be expanded to fit intrinsic type size"); \ |
96 VEC_STATIC_ASSERT(sizeof(__m64) <= sizeof(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " needs to be expanded to fit intrinsic type size"); \ | 75 VEC_STATIC_ASSERT(sizeof(__m64) <= sizeof(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " needs to be expanded to fit intrinsic type size"); \ |
97 \ | 76 \ |
98 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_load_aligned(const vec_##sign##int##bits in[size]) \ | 77 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_load_aligned(const vec_##sign##int##bits in[size]) \ |
99 { \ | 78 { \ |
100 v##sign##int##bits##x##size vec; \ | 79 v##sign##int##bits##x##size vec; \ |
101 memcpy(&vec, in, sizeof(vec)); \ | 80 memcpy(&vec, in, sizeof(vec)); \ |
102 return vec; \ | 81 return vec; \ |
103 } \ | 82 } \ |
104 \ | 83 \ |
105 VEC_FUNC_IMPL void v##sign##int##bits##x##size##_mmx_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ | 84 static void v##sign##int##bits##x##size##_mmx_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ |
106 { \ | 85 { \ |
107 memcpy(out, &vec, sizeof(vec)); \ | 86 memcpy(out, &vec, sizeof(vec)); \ |
108 } \ | 87 } \ |
109 \ | 88 \ |
110 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 89 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
111 { \ | 90 { \ |
112 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 91 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
113 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 92 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
114 \ | 93 \ |
115 vec1d->mmx = _mm_add_pi##bits(vec1d->mmx, vec2d->mmx); \ | 94 vec1d->mmx = _mm_add_pi##bits(vec1d->mmx, vec2d->mmx); \ |
116 \ | 95 \ |
117 return vec1d->vec; \ | 96 return vec1d->vec; \ |
118 } \ | 97 } \ |
119 \ | 98 \ |
120 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 99 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
121 { \ | 100 { \ |
122 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 101 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
123 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 102 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
124 \ | 103 \ |
125 vec1d->mmx = _mm_sub_pi##bits(vec1d->mmx, vec2d->mmx); \ | 104 vec1d->mmx = _mm_sub_pi##bits(vec1d->mmx, vec2d->mmx); \ |
126 \ | 105 \ |
127 return vec1d->vec; \ | 106 return vec1d->vec; \ |
128 } \ | 107 } \ |
129 \ | 108 \ |
130 VEC_MMX_MUL_##bits##x##size(sign) \ | 109 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_mul(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
110 { \ | |
111 VEC_MMX_MUL_##bits##x##size(sign); \ | |
112 } \ | |
131 \ | 113 \ |
132 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 114 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
133 { \ | 115 { \ |
134 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 116 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
135 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 117 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
136 \ | 118 \ |
137 vec1d->mmx = _mm_and_si64(vec1d->mmx, vec2d->mmx); \ | 119 vec1d->mmx = _mm_and_si64(vec1d->mmx, vec2d->mmx); \ |
138 \ | 120 \ |
139 return vec1d->vec; \ | 121 return vec1d->vec; \ |
140 } \ | 122 } \ |
141 \ | 123 \ |
142 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 124 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
143 { \ | 125 { \ |
144 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 126 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
145 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 127 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
146 \ | 128 \ |
147 vec1d->mmx = _mm_or_si64(vec1d->mmx, vec2d->mmx); \ | 129 vec1d->mmx = _mm_or_si64(vec1d->mmx, vec2d->mmx); \ |
148 \ | 130 \ |
149 return vec1d->vec; \ | 131 return vec1d->vec; \ |
150 } \ | 132 } \ |
151 \ | 133 \ |
152 VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 134 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
153 { \ | 135 { \ |
154 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ | 136 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
155 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ | 137 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
156 \ | 138 \ |
157 vec1d->mmx = _mm_xor_si64(vec1d->mmx, vec2d->mmx); \ | 139 vec1d->mmx = _mm_xor_si64(vec1d->mmx, vec2d->mmx); \ |
158 \ | 140 \ |
159 return vec1d->vec; \ | 141 return vec1d->vec; \ |
160 } \ | 142 } \ |
161 \ | 143 \ |
162 VEC_MMX_CMPEQ(sign, bits, size) \ | |
163 VEC_MMX_CMPLT(sign, bits, size) \ | |
164 VEC_MMX_CMPGT(sign, bits, size) \ | |
165 \ | |
166 const v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_mmx = { \ | 144 const v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_mmx = { \ |
167 .load_aligned = v##sign##int##bits##x##size##_mmx_load_aligned, \ | 145 v##sign##int##bits##x##size##_generic_splat, \ |
168 .load = v##sign##int##bits##x##size##_mmx_load_aligned, \ | 146 v##sign##int##bits##x##size##_mmx_load_aligned, \ |
169 .store_aligned = v##sign##int##bits##x##size##_mmx_store_aligned, \ | 147 v##sign##int##bits##x##size##_mmx_load_aligned, \ |
170 .store = v##sign##int##bits##x##size##_mmx_store_aligned, \ | 148 v##sign##int##bits##x##size##_mmx_store_aligned, \ |
171 .add = v##sign##int##bits##x##size##_mmx_add, \ | 149 v##sign##int##bits##x##size##_mmx_store_aligned, \ |
172 .sub = v##sign##int##bits##x##size##_mmx_sub, \ | 150 v##sign##int##bits##x##size##_mmx_add, \ |
173 .mul = VEC_MMX_STRUCT_MUL_8x8(sign), \ | 151 v##sign##int##bits##x##size##_mmx_sub, \ |
174 .band = v##sign##int##bits##x##size##_mmx_and, \ | 152 v##sign##int##bits##x##size##_mmx_mul, \ |
175 .bor = v##sign##int##bits##x##size##_mmx_or, \ | 153 v##sign##int##bits##x##size##_generic_div, \ |
176 .bxor = v##sign##int##bits##x##size##_mmx_xor, \ | 154 v##sign##int##bits##x##size##_generic_avg, \ |
177 .cmpeq = v##sign##int##bits##x##size##_mmx_cmpeq, \ | 155 v##sign##int##bits##x##size##_mmx_and, \ |
156 v##sign##int##bits##x##size##_mmx_or, \ | |
157 v##sign##int##bits##x##size##_mmx_xor, \ | |
158 v##sign##int##bits##x##size##_generic_not, \ | |
159 v##sign##int##bits##x##size##_generic_lshift, \ | |
160 v##sign##int##bits##x##size##_generic_rshift, \ | |
161 v##sign##int##bits##x##size##_generic_lrshift, \ | |
162 v##sign##int##bits##x##size##_generic_cmplt, \ | |
163 v##sign##int##bits##x##size##_generic_cmple, \ | |
164 v##sign##int##bits##x##size##_generic_cmpeq, \ | |
165 v##sign##int##bits##x##size##_generic_cmpge, \ | |
166 v##sign##int##bits##x##size##_generic_cmpgt, \ | |
178 }; | 167 }; |
179 | 168 |
180 #define VEC_MMX_DEFINE_OPERATIONS(bits, size) \ | 169 #define VEC_MMX_DEFINE_OPERATIONS(bits, size) \ |
181 VEC_MMX_DEFINE_OPERATIONS_SIGN(u, bits, size) \ | 170 VEC_MMX_DEFINE_OPERATIONS_SIGN(u, bits, size) \ |
182 VEC_MMX_DEFINE_OPERATIONS_SIGN( , bits, size) | 171 VEC_MMX_DEFINE_OPERATIONS_SIGN( , bits, size) |