Mercurial > vec
comparison src/impl/arm/neon.c @ 27:d00b95f95dd1
impl/arm/neon: it compiles again, but is untested
| author | Paper <paper@tflc.us> |
|---|---|
| date | Mon, 25 Nov 2024 00:33:02 -0500 |
| parents | e26874655738 |
| children | c6c99ab1088a |
comparison
equal
deleted
inserted
replaced
| 26:6c91cd9a2f2d | 27:d00b95f95dd1 |
|---|---|
| 21 * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE | 21 * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE |
| 22 * SOFTWARE. | 22 * SOFTWARE. |
| 23 **/ | 23 **/ |
| 24 | 24 |
| 25 #include "vec/impl/arm/neon.h" | 25 #include "vec/impl/arm/neon.h" |
| 26 #include "vec/impl/generic.h" | |
| 26 | 27 |
| 27 #include <arm_neon.h> | 28 #include <arm_neon.h> |
| 28 | 29 |
| 29 // There is LOTS of preprocessor hacking here (as if the other files | 30 // There is LOTS of preprocessor hacking here (as if the other files |
| 30 // weren't bad enough... lol) | 31 // weren't bad enough... lol) |
| 31 | 32 |
| 32 #define VEC_DEFINE_OPERATIONS_SIGN(sign, csign, bits, size) \ | 33 #define VEC_DEFINE_OPERATIONS_SIGN(sign, csign, bits, size) \ |
| 34 union v##sign##int##bits##x##size##_impl_data { \ | |
| 35 v##sign##int##bits##x##size vec; \ | |
| 36 sign##int##bits##x##size##_t neon; \ | |
| 37 }; \ | |
| 38 \ | |
| 39 VEC_STATIC_ASSERT(VEC_ALIGNOF(sign##int##bits##x##size##_t) <= VEC_ALIGNOF(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " alignment needs to be expanded to fit intrinsic type size"); \ | |
| 40 VEC_STATIC_ASSERT(sizeof(sign##int##bits##x##size##_t) <= sizeof(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " needs to be expanded to fit intrinsic type size"); \ | |
| 41 \ | |
| 33 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_load_aligned(const vec_##sign##int##bits in[size]) \ | 42 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_load_aligned(const vec_##sign##int##bits in[size]) \ |
| 34 { \ | 43 { \ |
| 35 v##sign##int##bits##x##size vec; \ | 44 union v##sign##int##bits##x##size##_impl_data vec; \ |
| 36 vec.neon = vld1_##sign##bits(in); \ | 45 vec.neon = vld1_##sign##bits(in); \ |
| 37 return vec; \ | 46 return vec.vec; \ |
| 38 } \ | 47 } \ |
| 39 \ | 48 \ |
| 40 static void v##sign##int##bits##x##size##_neon_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ | 49 static void v##sign##int##bits##x##size##_neon_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ |
| 41 { \ | 50 { \ |
| 42 vstore_lane_##bits(sign, vec.neon, out); \ | 51 vstore_lane_##bits(sign, ((union v##sign##int##bits##x##size##_impl_data *)&vec)->neon, out); \ |
| 43 } \ | 52 } \ |
| 44 \ | 53 \ |
| 45 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 54 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 46 { \ | 55 { \ |
| 47 v##sign##int##bits##x##size vec; \ | 56 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 48 vec.neon = vadd_##sign##bits(vec1.neon, vec2.neon); \ | 57 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 49 return vec; \ | 58 \ |
| 59 vec1d->neon = vadd_##sign##bits(vec1d->neon, vec2d->neon); \ | |
| 60 return vec1d->vec; \ | |
| 50 } \ | 61 } \ |
| 51 \ | 62 \ |
| 52 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 63 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 53 { \ | 64 { \ |
| 54 v##sign##int##bits##x##size vec; \ | 65 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 55 vec.neon = vsub_##sign##bits(vec1.neon, vec2.neon); \ | 66 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 56 return vec; \ | 67 \ |
| 68 vec1d->neon = vsub_##sign##bits(vec1d->neon, vec2d->neon); \ | |
| 69 return vec1d->vec; \ | |
| 57 } \ | 70 } \ |
| 58 \ | 71 \ |
| 59 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_mul(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 72 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_mul(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 60 { \ | 73 { \ |
| 61 v##sign##int##bits##x##size vec; \ | 74 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 62 vec.neon = vmul_##sign##bits(vec1.neon, vec2.neon); \ | 75 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 63 return vec; \ | 76 \ |
| 77 vec1d->neon = vmul_##sign##bits(vec1d->neon, vec2d->neon); \ | |
| 78 return vec1d->vec; \ | |
| 64 } \ | 79 } \ |
| 65 \ | 80 \ |
| 66 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_lshift(v##sign##int##bits##x##size vec1, vuint##bits##x##size vec2) \ | 81 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_lshift(v##sign##int##bits##x##size vec1, vuint##bits##x##size vec2) \ |
| 67 { \ | 82 { \ |
| 68 v##sign##int##bits##x##size vec; \ | 83 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 69 vec.neon = vshl_##sign##bits(vec1.neon, vreinterpret_##bits##_u##bits(vec2.neon)); \ | 84 union vuint##bits##x##size##_impl_data *vec2d = (union vuint##bits##x##size##_impl_data *)&vec2; \ |
| 70 return vec; \ | 85 \ |
| 86 vec1d->neon = vshl_##sign##bits(vec1d->neon, (vreinterpret_##bits##_u##bits)vec2d->neon); \ | |
| 87 return vec1d->vec; \ | |
| 71 } \ | 88 } \ |
| 72 \ | 89 \ |
| 73 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 90 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 74 { \ | 91 { \ |
| 75 v##sign##int##bits##x##size vec; \ | 92 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 76 vec.neon = vand_##sign##bits(vec1.neon, vec2.neon); \ | 93 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 77 return vec; \ | 94 \ |
| 95 vec1d->neon = vand_##sign##bits(vec1d->neon, vec2d->neon); \ | |
| 96 return vec1d->vec; \ | |
| 78 } \ | 97 } \ |
| 79 \ | 98 \ |
| 80 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 99 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 81 { \ | 100 { \ |
| 82 v##sign##int##bits##x##size vec; \ | 101 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 83 vec.neon = vorr_##sign##bits(vec1.neon, vec2.neon); \ | 102 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 84 return vec; \ | 103 \ |
| 104 vec1d->neon = vorr_##sign##bits(vec1d->neon, vec2d->neon); \ | |
| 105 return vec1d->vec; \ | |
| 85 } \ | 106 } \ |
| 86 \ | 107 \ |
| 87 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | 108 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ |
| 88 { \ | 109 { \ |
| 89 v##sign##int##bits##x##size vec; \ | 110 union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \ |
| 90 vec.neon = veor_##sign##bits(vec1.neon, vec2.neon); \ | 111 union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \ |
| 91 return vec; \ | 112 \ |
| 113 vec1d->neon = veor_##sign##bits(vec1d->neon, vec2d->neon); \ | |
| 114 return vec1d->vec; \ | |
| 92 } \ | 115 } \ |
| 93 \ | 116 \ |
| 94 static v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_neon = { \ | 117 static v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_neon = { \ |
| 95 /* .splat = */ NULL, \ | 118 v##sign##int##bits##x##size##_fallback_splat, \ |
| 96 v##sign##int##bits##x##size##_neon_load_aligned, \ | 119 v##sign##int##bits##x##size##_neon_load_aligned, \ |
| 97 v##sign##int##bits##x##size##_neon_load_aligned, \ | 120 v##sign##int##bits##x##size##_neon_load_aligned, \ |
| 98 v##sign##int##bits##x##size##_neon_store_aligned, \ | 121 v##sign##int##bits##x##size##_neon_store_aligned, \ |
| 99 v##sign##int##bits##x##size##_neon_store_aligned, \ | 122 v##sign##int##bits##x##size##_neon_store_aligned, \ |
| 100 v##sign##int##bits##x##size##_neon_add, \ | 123 v##sign##int##bits##x##size##_neon_add, \ |
| 101 v##sign##int##bits##x##size##_neon_sub, \ | 124 v##sign##int##bits##x##size##_neon_sub, \ |
| 102 v##sign##int##bits##x##size##_neon_mul, \ | 125 v##sign##int##bits##x##size##_neon_mul, \ |
| 103 /* .div = */ NULL, \ | 126 v##sign##int##bits##x##size##_fallback_div, \ |
| 104 /* .avg = */ NULL, \ | 127 v##sign##int##bits##x##size##_fallback_avg, \ |
| 105 v##sign##int##bits##x##size##_neon_and, \ | 128 v##sign##int##bits##x##size##_neon_and, \ |
| 106 v##sign##int##bits##x##size##_neon_or, \ | 129 v##sign##int##bits##x##size##_neon_or, \ |
| 107 v##sign##int##bits##x##size##_neon_xor, \ | 130 v##sign##int##bits##x##size##_neon_xor, \ |
| 108 /* .not = */ NULL, \ | 131 v##sign##int##bits##x##size##_fallback_not, \ |
| 109 v##sign##int##bits##x##size##_neon_lshift, \ | 132 v##sign##int##bits##x##size##_neon_lshift, \ |
| 110 /* .rshift = */ NULL, \ | 133 v##sign##int##bits##x##size##_fallback_rshift, \ |
| 111 /* .lrshift = */ NULL, \ | 134 v##sign##int##bits##x##size##_fallback_lrshift, \ |
| 135 v##sign##int##bits##x##size##_fallback_cmplt, \ | |
| 136 v##sign##int##bits##x##size##_fallback_cmple, \ | |
| 137 v##sign##int##bits##x##size##_fallback_cmpeq, \ | |
| 138 v##sign##int##bits##x##size##_fallback_cmpge, \ | |
| 139 v##sign##int##bits##x##size##_fallback_cmpgt, \ | |
| 112 }; | 140 }; |
| 113 | 141 |
| 114 #define VEC_DEFINE_OPERATIONS(bits, size) \ | 142 #define VEC_DEFINE_OPERATIONS(bits, size) \ |
| 115 VEC_DEFINE_OPERATIONS_SIGN( , , bits, size) \ | 143 VEC_DEFINE_OPERATIONS_SIGN(u, U, bits, size) \ |
| 116 VEC_DEFINE_OPERATIONS_SIGN(u, U, bits, size) | 144 VEC_DEFINE_OPERATIONS_SIGN( , , bits, size) |
| 117 | 145 |
| 118 // Ok, we'll start out with the 64-bit types. | 146 // Ok, we'll start out with the 64-bit types. |
| 119 | 147 |
| 120 #define vadd_8 vadd_s8 | 148 #define vadd_8 vadd_s8 |
| 121 #define vadd_16 vadd_s16 | 149 #define vadd_16 vadd_s16 |
| 353 #define vreinterpret_8_u8(x) vreinterpretq_s8_u8(x) | 381 #define vreinterpret_8_u8(x) vreinterpretq_s8_u8(x) |
| 354 #define vreinterpret_16_u16(x) vreinterpretq_s16_u16(x) | 382 #define vreinterpret_16_u16(x) vreinterpretq_s16_u16(x) |
| 355 #define vreinterpret_32_u32(x) vreinterpretq_s32_u32(x) | 383 #define vreinterpret_32_u32(x) vreinterpretq_s32_u32(x) |
| 356 #define vreinterpret_64_u64(x) vreinterpretq_s64_u64(x) | 384 #define vreinterpret_64_u64(x) vreinterpretq_s64_u64(x) |
| 357 | 385 |
| 358 #define VEC_DEFINE_OPERATIONS_SIGN(sign, csign, bits, size) \ | |
| 359 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_load_aligned(const vec_##sign##int##bits in[size]) \ | |
| 360 { \ | |
| 361 v##sign##int##bits##x##size vec; \ | |
| 362 vec.neon = vld1_##sign##bits(in); \ | |
| 363 return vec; \ | |
| 364 } \ | |
| 365 \ | |
| 366 static void v##sign##int##bits##x##size##_neon_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \ | |
| 367 { \ | |
| 368 vstore_lane_##bits(sign, vec.neon, out); \ | |
| 369 } \ | |
| 370 \ | |
| 371 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | |
| 372 { \ | |
| 373 v##sign##int##bits##x##size vec; \ | |
| 374 vec.neon = vadd_##sign##bits(vec1.neon, vec2.neon); \ | |
| 375 return vec; \ | |
| 376 } \ | |
| 377 \ | |
| 378 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | |
| 379 { \ | |
| 380 v##sign##int##bits##x##size vec; \ | |
| 381 vec.neon = vsub_##sign##bits(vec1.neon, vec2.neon); \ | |
| 382 return vec; \ | |
| 383 } \ | |
| 384 \ | |
| 385 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_mul(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | |
| 386 { \ | |
| 387 v##sign##int##bits##x##size vec; \ | |
| 388 vec.neon = vmul_##sign##bits(vec1.neon, vec2.neon); \ | |
| 389 return vec; \ | |
| 390 } \ | |
| 391 \ | |
| 392 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_lshift(v##sign##int##bits##x##size vec1, vuint##bits##x##size vec2) \ | |
| 393 { \ | |
| 394 v##sign##int##bits##x##size vec; \ | |
| 395 vec.neon = vshl_##sign##bits(vec1.neon, vreinterpret_##bits##_u##bits(vec2.neon)); \ | |
| 396 return vec; \ | |
| 397 } \ | |
| 398 \ | |
| 399 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | |
| 400 { \ | |
| 401 v##sign##int##bits##x##size vec; \ | |
| 402 vec.neon = vand_##sign##bits(vec1.neon, vec2.neon); \ | |
| 403 return vec; \ | |
| 404 } \ | |
| 405 \ | |
| 406 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | |
| 407 { \ | |
| 408 v##sign##int##bits##x##size vec; \ | |
| 409 vec.neon = vorr_##sign##bits(vec1.neon, vec2.neon); \ | |
| 410 return vec; \ | |
| 411 } \ | |
| 412 \ | |
| 413 static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \ | |
| 414 { \ | |
| 415 v##sign##int##bits##x##size vec; \ | |
| 416 vec.neon = veor_##sign##bits(vec1.neon, vec2.neon); \ | |
| 417 return vec; \ | |
| 418 } \ | |
| 419 \ | |
| 420 static v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_neon = { \ | |
| 421 /* .splat = */ NULL, \ | |
| 422 v##sign##int##bits##x##size##_neon_load_aligned, \ | |
| 423 v##sign##int##bits##x##size##_neon_load_aligned, \ | |
| 424 v##sign##int##bits##x##size##_neon_store_aligned, \ | |
| 425 v##sign##int##bits##x##size##_neon_store_aligned, \ | |
| 426 v##sign##int##bits##x##size##_neon_add, \ | |
| 427 v##sign##int##bits##x##size##_neon_sub, \ | |
| 428 v##sign##int##bits##x##size##_neon_mul, \ | |
| 429 /* .div = */ NULL, \ | |
| 430 /* .avg = */ NULL, \ | |
| 431 v##sign##int##bits##x##size##_neon_and, \ | |
| 432 v##sign##int##bits##x##size##_neon_or, \ | |
| 433 v##sign##int##bits##x##size##_neon_xor, \ | |
| 434 /* .not = */ NULL, \ | |
| 435 v##sign##int##bits##x##size##_neon_lshift, \ | |
| 436 /* .rshift = */ NULL, \ | |
| 437 /* .lrshift = */ NULL, \ | |
| 438 }; | |
| 439 | |
| 440 #define VEC_DEFINE_OPERATIONS(bits, size) \ | |
| 441 VEC_DEFINE_OPERATIONS_SIGN( , , bits, size) \ | |
| 442 VEC_DEFINE_OPERATIONS_SIGN(u, U, bits, size) | |
| 443 | |
| 444 VEC_DEFINE_OPERATIONS(8, 16) | 386 VEC_DEFINE_OPERATIONS(8, 16) |
| 445 VEC_DEFINE_OPERATIONS(16, 8) | 387 VEC_DEFINE_OPERATIONS(16, 8) |
| 446 VEC_DEFINE_OPERATIONS(32, 4) | 388 VEC_DEFINE_OPERATIONS(32, 4) |
| 447 VEC_DEFINE_OPERATIONS(64, 2) | 389 VEC_DEFINE_OPERATIONS(64, 2) |
| 448 | 390 |
