Mercurial > vec
diff include/vec/impl/x86/mmx.h @ 37:4b5a557aa64f
*: turns out extern is a practical joke. rewrite to be always inline again
the sample benchmark performs about 3x as well with optimizations
disabled :)
author | Paper <paper@tflc.us> |
---|---|
date | Sat, 26 Apr 2025 01:04:35 -0400 |
parents | 677c03c382b8 |
children | fd42f9b1b95e |
line wrap: on
line diff
--- a/include/vec/impl/x86/mmx.h Fri Apr 25 17:40:55 2025 -0400 +++ b/include/vec/impl/x86/mmx.h Sat Apr 26 01:04:35 2025 -0400 @@ -25,190 +25,516 @@ #ifndef VEC_IMPL_X86_MMX_H_ #define VEC_IMPL_X86_MMX_H_ -#define VEC_MMX_OPERATION_8x8(op, sign) \ - do { \ - /* unpack and multiply */ \ - __m64 dst_even = _mm_##op##_pi16(vec1.mmx, vec2.mmx); \ - __m64 dst_odd = _mm_##op##_pi16(_mm_srli_pi16(vec1.mmx, 8), _mm_srli_pi16(vec2.mmx, 8)); \ - \ - /* repack */ \ - v##sign##int8x8 vec; \ - vec.mmx = _mm_or_si64( \ - _mm_slli_pi16(dst_odd, 8), \ - _mm_srli_pi16(_mm_slli_pi16(dst_even, 8), 8) \ - ); \ - return vec; \ - } while (0) +/* ------------------------------------------------------------------------ */ -// shifting -#define VEC_MMX_LSHIFT_8x8(sign) \ - VEC_MMX_OPERATION_8x8(sll, sign) +#define VEC_MMX_OP_EX(name, intlsign, op, sign, bits, size, VARS, TRANS1, TRANS2) \ + VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_##name(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ + { \ + VARS \ + \ + TRANS1 \ + \ + vec1.mmx = _mm_##op##_p##intlsign##bits(vec1.mmx, vec2.mmx); \ + \ + TRANS2 \ + \ + return vec1; \ + } -#define VEC_MMX_LSHIFT_16x4(sign) \ - do { \ - v##sign##int16x4 vec; \ - vec.mmx = _mm_sll_pi16(vec1.mmx, vec2.mmx); \ - return vec; \ - } while (0) +#define VEC_MMX_OP(name, intlsign, op, sign, bits, size) \ + VEC_MMX_OP_EX(name, intlsign, op, sign, bits, size, /* nothing */, /* nothing */, /* nothing */) -#define VEC_MMX_LSHIFT_32x2(sign) \ - do { \ - v##sign##int32x2 vec; \ - vec.mmx = _mm_sll_pi32(vec1.mmx, vec2.mmx); \ - return vec; \ - } while (0) - -#define VEC_MMX_RSHIFT_8x8(sign, aORl) \ - VEC_MMX_OPERATION_8x8(sr##aORl, sign) +/* ------------------------------------------------------------------------ */ +/* comparison */ -#define VEC_MMX_RSHIFT_16x4(sign, aORl) \ - do { \ - v##sign##int16x4 vec; \ - vec.mmx = _mm_sr##aORl##_pi16(vec1.mmx, vec2.mmx); \ - return vec; \ - } while (0) +/* helper funcs */ +#define VEC_xMMX_CMP(name, op, sign, bits, size, first, second, VARS, TRANS1, TRANS2) \ + VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_##name(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ + { \ + VARS \ + \ + TRANS1 \ + \ + vec1.mmx = _mm_##op##_pi##bits(vec##first.mmx, vec##second.mmx); \ + \ + TRANS2 \ + \ + return vec1; \ + } -#define VEC_MMX_RSHIFT_32x2(sign, aORl) \ - do { \ - v##sign##int32x2 vec; \ - vec.mmx = _mm_sr##aORl##_pi32(vec1.mmx, vec2.mmx); \ - return vec; \ - } while (0) - -// shared between MMX variations -#define VEC_MMX_MUL_8x8(sign) \ - VEC_MMX_OPERATION_8x8(mullo, sign) +#define VEC_MMX_CMP(name, op, bits, size, first, second) \ + VEC_xMMX_CMP(name, op, /* nothing */, bits, size, first, second, /* nothing */, /* nothing */, /* nothing */) -#define VEC_MMX_MUL_16x4(sign) \ - do { \ - /* we have a real instruction for this */ \ - v##sign##int16x4 vec; \ - vec.mmx = _mm_mullo_pi16(vec1.mmx, vec2.mmx); \ - return vec; \ - } while (0) +#define VEC_uMMX_CMP(name, op, bits, size, first, second) \ + VEC_xMMX_CMP(name, op, u, bits, size, first, second, \ + __m64 xor_val = _mm_set1_pi##bits((vec_int##bits)(1u << (bits - 1))); \ + , { \ + vec1.mmx = _mm_xor_si64(vec1.mmx, xor_val); \ + vec2.mmx = _mm_xor_si64(vec2.mmx, xor_val); \ + }, \ + { \ + /* nothing */ \ + }) -#define VEC_MMX_MUL_32x2(sign) \ - do { \ - __m64 ac = _mm_mullo_pi16(vec1.mmx, vec2.mmx); \ - __m64 b = _mm_srli_pi32(vec1.mmx, 16); \ - __m64 bc = _mm_mullo_pi16(b, vec2.mmx); \ - __m64 d = _mm_srli_pi32(vec2.mmx, 16); \ - __m64 ad = _mm_mullo_pi16(vec1.mmx, d); \ - __m64 hi = _mm_add_pi32(bc, ad); \ - hi = _mm_slli_pi32(hi, 16); \ - \ - v##sign##int32x2 vec; \ - vec.mmx = _mm_add_pi32(hi, ac); \ - return vec; \ - } while (0) +#define VEC_MMX_CMPEQ(sign, bits, size) VEC_xMMX_CMP(cmpeq, cmpeq, sign, bits, size, 1, 2, , ,) +#define VEC_MMX_CMPLT(sign, bits, size) VEC_##sign##MMX_CMP(cmplt, cmpgt, bits, size, 2, 1) +#define VEC_MMX_CMPGT(sign, bits, size) VEC_##sign##MMX_CMP(cmpgt, cmpgt, bits, size, 1, 2) -#define VEC_MMX_DEFINE_OPERATIONS_SIGN(sign, bits, size) \ - static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_load_aligned(const vec_##sign##int##bits in[size]) \ +/* ------------------------------------------------------------------------ */ + +#define VEC_MMX_SPLAT(sign, bits, size) \ + VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_splat(vec_##sign##int##bits x) \ { \ v##sign##int##bits##x##size vec; \ - memcpy(&vec.mmx, in, sizeof(vec.mmx)); \ + vec.mmx = _mm_set1_pi##bits(x); \ return vec; \ - } \ - \ - static void v##sign##int##bits##x##size##_mmx_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ - { \ - memcpy(out, &vec.mmx, sizeof(vec.mmx)); \ - } \ - \ - static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ + } + +#define VEC_MMX_LOAD_EX(name, sign, bits, size) \ + VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_##name(const vec_##sign##int##bits in[size]) \ { \ v##sign##int##bits##x##size vec; \ - vec.mmx = _mm_add_pi##bits(vec1.mmx, vec2.mmx); \ - return vec; \ - } \ - \ - static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ - { \ - v##sign##int##bits##x##size vec; \ - vec.mmx = _mm_sub_pi##bits(vec1.mmx, vec2.mmx); \ - return vec; \ - } \ - \ - static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_mul(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ - { \ - VEC_MMX_MUL_##bits##x##size(sign); \ - } \ - \ - static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ - { \ - v##sign##int##bits##x##size vec; \ - vec.mmx = _mm_and_si64(vec1.mmx, vec2.mmx); \ + memcpy(&vec, in, sizeof(vec)); \ return vec; \ - } \ - \ - static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ + } + +#define VEC_MMX_LOAD(sign, bits, size) VEC_MMX_LOAD_EX(load, sign, bits, size) +#define VEC_MMX_LOAD_ALIGNED(sign, bits, size) VEC_MMX_LOAD_EX(load_aligned, sign, bits, size) + +#define VEC_MMX_STORE_EX(name, sign, bits, size) \ + VEC_FUNC_IMPL void v##sign##int##bits##x##size##_##name(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ { \ - v##sign##int##bits##x##size vec; \ - vec.mmx = _mm_or_si64(vec1.mmx, vec2.mmx); \ - return vec; \ - } \ - \ - static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ + memcpy(out, &vec, sizeof(vec)); \ + } + +#define VEC_MMX_STORE(sign, bits, size) VEC_MMX_STORE_EX(store, sign, bits, size) +#define VEC_MMX_STORE_ALIGNED(sign, bits, size) VEC_MMX_STORE_EX(store_aligned, sign, bits, size) + +#define VEC_MMX_BITWISE(name, sign, bits, size) \ + VEC_FUNC_IMPL v##sign##int##bits##x##size v##sign##int##bits##x##size##_##name(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ { \ - v##sign##int##bits##x##size vec; \ - vec.mmx = _mm_xor_si64(vec1.mmx, vec2.mmx); \ - return vec; \ - } \ + vec1.mmx = _mm_##name##_si64(vec1.mmx, vec2.mmx); \ \ - static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_lshift(v##sign##int##bits##x##size vec1, vuint##bits##x##size vec2) \ - { \ - VEC_MMX_LSHIFT_##bits##x##size(sign); \ - } \ - \ - static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_rshift(v##sign##int##bits##x##size vec1, vuint##bits##x##size vec2) \ + return vec1; \ + } + +/* ------------------------------------------------------------------------ */ + +#ifndef VINT8x8_SPLAT_DEFINED +VEC_MMX_SPLAT(, 8, 8) +# define VINT8x8_SPLAT_DEFINED +#endif + +#ifndef VINT8x8_LOAD_DEFINED +VEC_MMX_LOAD(, 8, 8) +# define VINT8x8_LOAD_DEFINED +#endif + +#ifndef VINT8x8_LOAD_ALIGNED_DEFINED +VEC_MMX_LOAD_ALIGNED(, 8, 8) +# define VINT8x8_LOAD_ALIGNED_DEFINED +#endif + +#ifndef VINT8x8_STORE_DEFINED +VEC_MMX_STORE(, 8, 8) +# define VINT8x8_STORE_DEFINED +#endif + +#ifndef VINT8x8_STORE_ALIGNED_DEFINED +VEC_MMX_STORE_ALIGNED(, 8, 8) +# define VINT8x8_STORE_ALIGNED_DEFINED +#endif + +#ifndef VINT8x8_ADD_DEFINED +VEC_MMX_OP(add, i, add, /* nothing */, 8, 8) +# define VINT8x8_ADD_DEFINED +#endif + +#ifndef VINT8x8_SUB_DEFINED +VEC_MMX_OP(sub, i, sub, /* nothing */, 8, 8) +# define VINT8x8_SUB_DEFINED +#endif + +#ifndef VINT8x8_AND_DEFINED +VEC_MMX_BITWISE(and, /* nothing */, 8, 8) +# define VINT8x8_AND_DEFINED +#endif + +#ifndef VINT8x8_OR_DEFINED +VEC_MMX_BITWISE(or, /* nothing */, 8, 8) +# define VINT8x8_OR_DEFINED +#endif + +#ifndef VINT8x8_XOR_DEFINED +VEC_MMX_BITWISE(xor, /* nothing */, 8, 8) +# define VINT8x8_XOR_DEFINED +#endif + +#ifndef VINT8x8_CMPEQ_DEFINED +VEC_MMX_CMPEQ(, 8, 8) +# define VINT8x8_CMPEQ_DEFINED +#endif + +#ifndef VINT8x8_CMPLT_DEFINED +VEC_MMX_CMPLT(, 8, 8) +# define VINT8x8_CMPLT_DEFINED +#endif + +#ifndef VINT8x8_CMPGT_DEFINED +VEC_MMX_CMPGT(, 8, 8) +# define VINT8x8_CMPGT_DEFINED +#endif + +/* ------------------------------------------------------------------------ */ + +#ifndef VUINT8x8_SPLAT_DEFINED +VEC_MMX_SPLAT(u, 8, 8) +# define VUINT8x8_SPLAT_DEFINED +#endif + +#ifndef VUINT8x8_LOAD_DEFINED +VEC_MMX_LOAD(u, 8, 8) +# define VUINT8x8_LOAD_DEFINED +#endif + +#ifndef VUINT8x8_LOAD_ALIGNED_DEFINED +VEC_MMX_LOAD_ALIGNED(u, 8, 8) +# define VUINT8x8_LOAD_ALIGNED_DEFINED +#endif + +#ifndef VUINT8x8_STORE_DEFINED +VEC_MMX_STORE(u, 8, 8) +# define VUINT8x8_STORE_DEFINED +#endif + +#ifndef VUINT8x8_STORE_ALIGNED_DEFINED +VEC_MMX_STORE_ALIGNED(u, 8, 8) +# define VUINT8x8_STORE_ALIGNED_DEFINED +#endif + +#ifndef VUINT8x8_ADD_DEFINED +VEC_MMX_OP(add, i, add, u, 8, 8) +# define VUINT8x8_ADD_DEFINED +#endif + +#ifndef VUINT8x8_SUB_DEFINED +VEC_MMX_OP(sub, i, sub, u, 8, 8) +# define VUINT8x8_SUB_DEFINED +#endif + +#ifndef VUINT8x8_AND_DEFINED +VEC_MMX_BITWISE(and, u, 8, 8) +# define VUINT8x8_AND_DEFINED +#endif + +#ifndef VUINT8x8_OR_DEFINED +VEC_MMX_BITWISE(or, u, 8, 8) +# define VUINT8x8_OR_DEFINED +#endif + +#ifndef VUINT8x8_XOR_DEFINED +VEC_MMX_BITWISE(xor, u, 8, 8) +# define VUINT8x8_XOR_DEFINED +#endif + +#ifndef VUINT8x8_CMPEQ_DEFINED +VEC_MMX_CMPEQ(u, 8, 8) +# define VUINT8x8_CMPEQ_DEFINED +#endif + +#ifndef VUINT8x8_CMPLT_DEFINED +VEC_MMX_CMPLT(u, 8, 8) +# define VUINT8x8_CMPLT_DEFINED +#endif + +#ifndef VUINT8x8_CMPGT_DEFINED +VEC_MMX_CMPGT(u, 8, 8) +# define VUINT8x8_CMPGT_DEFINED +#endif + +/* ------------------------------------------------------------------------ */ + +#define VEC_MMX_MUL_16x4(sign) \ + VEC_FUNC_IMPL v##sign##int16x4 v##sign##int16x4_mul(v##sign##int16x4 vec1, v##sign##int16x4 vec2) \ { \ - VEC_MMX_RSHIFT_##bits##x##size(sign, a); \ - } \ - \ - static v##sign##int##bits##x##size v##sign##int##bits##x##size##_mmx_lrshift(v##sign##int##bits##x##size vec1, vuint##bits##x##size vec2) \ - { \ - VEC_MMX_RSHIFT_##bits##x##size(sign, l); \ - } \ - \ - static v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_mmx = { \ - /* .splat = */ NULL, \ - v##sign##int##bits##x##size##_mmx_load_aligned, \ - v##sign##int##bits##x##size##_mmx_load_aligned, \ - v##sign##int##bits##x##size##_mmx_store_aligned, \ - v##sign##int##bits##x##size##_mmx_store_aligned, \ - v##sign##int##bits##x##size##_mmx_add, \ - v##sign##int##bits##x##size##_mmx_sub, \ - v##sign##int##bits##x##size##_mmx_mul, \ - /* .div = */ NULL, \ - /* .avg = */ NULL, \ - v##sign##int##bits##x##size##_mmx_and, \ - v##sign##int##bits##x##size##_mmx_or, \ - v##sign##int##bits##x##size##_mmx_xor, \ - /* .not = */ NULL, \ - v##sign##int##bits##x##size##_mmx_lshift, \ - v##sign##int##bits##x##size##_mmx_rshift, \ - v##sign##int##bits##x##size##_mmx_lrshift, \ - }; + vec1.mmx = _mm_mullo_pi16(vec1.mmx, vec2.mmx); \ + return vec1; \ + } + +#ifndef VINT16x4_SPLAT_DEFINED +VEC_MMX_SPLAT(, 16, 4) +# define VINT16x4_SPLAT_DEFINED +#endif + +#ifndef VINT16x4_LOAD_DEFINED +VEC_MMX_LOAD(, 16, 4) +# define VINT16x4_LOAD_DEFINED +#endif + +#ifndef VINT16x4_LOAD_ALIGNED_DEFINED +VEC_MMX_LOAD_ALIGNED(, 16, 4) +# define VINT16x4_LOAD_ALIGNED_DEFINED +#endif + +#ifndef VINT16x4_STORE_DEFINED +VEC_MMX_STORE(, 16, 4) +# define VINT16x4_STORE_DEFINED +#endif + +#ifndef VINT16x4_STORE_ALIGNED_DEFINED +VEC_MMX_STORE_ALIGNED(, 16, 4) +# define VINT16x4_STORE_ALIGNED_DEFINED +#endif + +#ifndef VINT16x4_ADD_DEFINED +VEC_MMX_OP(add, i, add, /* nothing */, 16, 4) +# define VINT16x4_ADD_DEFINED +#endif + +#ifndef VINT16x4_SUB_DEFINED +VEC_MMX_OP(sub, i, sub, /* nothing */, 16, 4) +# define VINT16x4_SUB_DEFINED +#endif + +#ifndef VINT16x4_MUL_DEFINED +VEC_MMX_MUL_16x4(/* nothing */) +# define VINT16x4_MUL_DEFINED +#endif + +#ifndef VINT16x4_AND_DEFINED +VEC_MMX_BITWISE(and, /* nothing */, 16, 4) +# define VINT16x4_AND_DEFINED +#endif + +#ifndef VINT16x4_OR_DEFINED +VEC_MMX_BITWISE(or, /* nothing */, 16, 4) +# define VINT16x4_OR_DEFINED +#endif + +#ifndef VINT16x4_XOR_DEFINED +VEC_MMX_BITWISE(xor, /* nothing */, 16, 4) +# define VINT16x4_XOR_DEFINED +#endif + +#ifndef VINT16x4_CMPEQ_DEFINED +VEC_MMX_CMPEQ(, 16, 4) +# define VINT16x4_CMPEQ_DEFINED +#endif + +#ifndef VINT16x4_CMPLT_DEFINED +VEC_MMX_CMPLT(, 16, 4) +# define VINT16x4_CMPLT_DEFINED +#endif + +#ifndef VINT16x4_CMPGT_DEFINED +VEC_MMX_CMPGT(, 16, 4) +# define VINT16x4_CMPGT_DEFINED +#endif + +/* ------------------------------------------------------------------------ */ + +#ifndef VUINT16x4_SPLAT_DEFINED +VEC_MMX_SPLAT(u, 16, 4) +# define VUINT16x4_SPLAT_DEFINED +#endif + +#ifndef VUINT16x4_LOAD_DEFINED +VEC_MMX_LOAD(u, 16, 4) +# define VUINT16x4_LOAD_DEFINED +#endif + +#ifndef VUINT16x4_LOAD_ALIGNED_DEFINED +VEC_MMX_LOAD_ALIGNED(u, 16, 4) +# define VUINT16x4_LOAD_ALIGNED_DEFINED +#endif + +#ifndef VUINT16x4_STORE_DEFINED +VEC_MMX_STORE(u, 16, 4) +# define VUINT16x4_STORE_DEFINED +#endif + +#ifndef VUINT16x4_STORE_ALIGNED_DEFINED +VEC_MMX_STORE_ALIGNED(u, 16, 4) +# define VUINT16x4_STORE_ALIGNED_DEFINED +#endif + +#ifndef VUINT16x4_ADD_DEFINED +VEC_MMX_OP(add, i, add, u, 16, 4) +# define VUINT16x4_ADD_DEFINED +#endif + +#ifndef VUINT16x4_SUB_DEFINED +VEC_MMX_OP(sub, i, sub, u, 16, 4) +# define VUINT16x4_SUB_DEFINED +#endif + +#ifndef VUINT16x4_MUL_DEFINED +VEC_MMX_MUL_16x4(u) +# define VUINT16x4_MUL_DEFINED +#endif + +#ifndef VUINT16x4_AND_DEFINED +VEC_MMX_BITWISE(and, u, 16, 4) +# define VUINT16x4_AND_DEFINED +#endif + +#ifndef VUINT16x4_OR_DEFINED +VEC_MMX_BITWISE(or, u, 16, 4) +# define VUINT16x4_OR_DEFINED +#endif + +#ifndef VUINT16x4_XOR_DEFINED +VEC_MMX_BITWISE(xor, u, 16, 4) +# define VUINT16x4_XOR_DEFINED +#endif + +#ifndef VUINT16x4_CMPEQ_DEFINED +VEC_MMX_CMPEQ(u, 16, 4) +# define VUINT16x4_CMPEQ_DEFINED +#endif -#define VEC_MMX_DEFINE_OPERATIONS(bits, size) \ - VEC_MMX_DEFINE_OPERATIONS_SIGN( , bits, size) \ - VEC_MMX_DEFINE_OPERATIONS_SIGN(u, bits, size) +#ifndef VUINT16x4_CMPLT_DEFINED +VEC_MMX_CMPLT(u, 16, 4) +# define VUINT16x4_CMPLT_DEFINED +#endif + +#ifndef VUINT16x4_CMPGT_DEFINED +VEC_MMX_CMPGT(u, 16, 4) +# define VUINT16x4_CMPGT_DEFINED +#endif + +/* ------------------------------------------------------------------------ */ + +#ifndef VINT32x2_SPLAT_DEFINED +VEC_MMX_SPLAT(, 32, 2) +# define VINT32x2_SPLAT_DEFINED +#endif + +#ifndef VINT32x2_LOAD_DEFINED +VEC_MMX_LOAD(, 32, 2) +# define VINT32x2_LOAD_DEFINED +#endif + +#ifndef VINT32x2_LOAD_ALIGNED_DEFINED +VEC_MMX_LOAD_ALIGNED(, 32, 2) +# define VINT32x2_LOAD_ALIGNED_DEFINED +#endif + +#ifndef VINT32x2_STORE_DEFINED +VEC_MMX_STORE(, 32, 2) +# define VINT32x2_STORE_DEFINED +#endif -VEC_MMX_DEFINE_OPERATIONS(8, 8) -VEC_MMX_DEFINE_OPERATIONS(16, 4) -VEC_MMX_DEFINE_OPERATIONS(32, 2) +#ifndef VINT32x2_STORE_ALIGNED_DEFINED +VEC_MMX_STORE_ALIGNED(, 32, 2) +# define VINT32x2_STORE_ALIGNED_DEFINED +#endif + +#ifndef VINT32x2_ADD_DEFINED +VEC_MMX_OP(add, i, add, /* nothing */, 32, 2) +# define VINT32x2_ADD_DEFINED +#endif + +#ifndef VINT32x2_SUB_DEFINED +VEC_MMX_OP(sub, i, sub, /* nothing */, 32, 2) +# define VINT32x2_SUB_DEFINED +#endif + +#ifndef VINT32x2_AND_DEFINED +VEC_MMX_BITWISE(and, /* nothing */, 32, 2) +# define VINT32x2_AND_DEFINED +#endif + +#ifndef VINT32x2_OR_DEFINED +VEC_MMX_BITWISE(or, /* nothing */, 32, 2) +# define VINT32x2_OR_DEFINED +#endif + +#ifndef VINT32x2_XOR_DEFINED +VEC_MMX_BITWISE(xor, /* nothing */, 32, 2) +# define VINT32x2_XOR_DEFINED +#endif + +#ifndef VINT32x2_CMPEQ_DEFINED +VEC_MMX_CMPEQ(, 32, 2) +# define VINT32x2_CMPEQ_DEFINED +#endif + +#ifndef VINT32x2_CMPLT_DEFINED +VEC_MMX_CMPLT(, 32, 2) +# define VINT32x2_CMPLT_DEFINED +#endif -#undef VEC_MMX_DEFINE_OPERATIONS -#undef VEC_MMX_DEFINE_OPERATIONS_SIGN -#undef VEC_MMX_MUL_8x8 -#undef VEC_MMX_MUL_16x4 -#undef VEC_MMX_MUL_32x2 -#undef VEC_MMX_OPERATION_8x8 -#undef VEC_MMX_LSHIFT_8x8 -#undef VEC_MMX_LSHIFT_16x4 -#undef VEC_MMX_LSHIFT_32x2 -#undef VEC_MMX_RSHIFT_8x8 -#undef VEC_MMX_RSHIFT_16x4 -#undef VEC_MMX_RSHIFT_32x2 +#ifndef VINT32x2_CMPGT_DEFINED +VEC_MMX_CMPGT(, 32, 2) +# define VINT32x2_CMPGT_DEFINED +#endif + +/* ------------------------------------------------------------------------ */ + +#ifndef VUINT32x2_SPLAT_DEFINED +VEC_MMX_SPLAT(u, 32, 2) +# define VUINT32x2_SPLAT_DEFINED +#endif + +#ifndef VUINT32x2_LOAD_DEFINED +VEC_MMX_LOAD(u, 32, 2) +# define VUINT32x2_LOAD_DEFINED +#endif + +#ifndef VUINT32x2_LOAD_ALIGNED_DEFINED +VEC_MMX_LOAD_ALIGNED(u, 32, 2) +# define VUINT32x2_LOAD_ALIGNED_DEFINED +#endif + +#ifndef VUINT32x2_STORE_DEFINED +VEC_MMX_STORE(u, 32, 2) +# define VUINT32x2_STORE_DEFINED +#endif + +#ifndef VUINT32x2_STORE_ALIGNED_DEFINED +VEC_MMX_STORE_ALIGNED(u, 32, 2) +# define VUINT32x2_STORE_ALIGNED_DEFINED +#endif + +#ifndef VUINT32x2_ADD_DEFINED +VEC_MMX_OP(add, i, add, u, 32, 2) +# define VUINT32x2_ADD_DEFINED +#endif + +#ifndef VUINT32x2_SUB_DEFINED +VEC_MMX_OP(sub, i, sub, u, 32, 2) +# define VUINT32x2_SUB_DEFINED +#endif + +#ifndef VUINT32x2_AND_DEFINED +VEC_MMX_BITWISE(and, u, 32, 2) +# define VUINT32x2_AND_DEFINED +#endif + +#ifndef VUINT32x2_OR_DEFINED +VEC_MMX_BITWISE(or, u, 32, 2) +# define VUINT32x2_OR_DEFINED +#endif + +#ifndef VUINT32x2_XOR_DEFINED +VEC_MMX_BITWISE(xor, u, 32, 2) +# define VUINT32x2_XOR_DEFINED +#endif + +#ifndef VUINT32x2_CMPEQ_DEFINED +VEC_MMX_CMPEQ(u, 32, 2) +# define VUINT32x2_CMPEQ_DEFINED +#endif + +#ifndef VUINT32x2_CMPLT_DEFINED +VEC_MMX_CMPLT(u, 32, 2) +# define VUINT32x2_CMPLT_DEFINED +#endif + +#ifndef VUINT32x2_CMPGT_DEFINED +VEC_MMX_CMPGT(u, 32, 2) +# define VUINT32x2_CMPGT_DEFINED +#endif #endif /* VEC_IMPL_X86_MMX_H_ */