vec: src/impl/arm/neon.c comparison

comparison src/impl/arm/neon.c @ 32:0de48dc864ea

Backed out changeset d00b95f95dd1

author	Paper <paper@tflc.us>
date	Fri, 25 Apr 2025 17:40:38 -0400
parents	bf6ad516f1e6
children

comparison

equal deleted inserted replaced

-:bf6ad516f1e6
+:0de48dc864ea
 * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 * SOFTWARE.
 **/
 #include "vec/impl/arm/neon.h"
-#include "vec/impl/generic.h"
 #include <arm_neon.h>
 // There is LOTS of preprocessor hacking here (as if the other files
 // weren't bad enough... lol)
 #define VEC_DEFINE_OPERATIONS_SIGN(sign, csign, bits, size) \
-	union v##sign##int##bits##x##size##_impl_data { \
-		v##sign##int##bits##x##size vec; \
-		sign##int##bits##x##size##_t neon; \
-	}; \
-	\
-	VEC_STATIC_ASSERT(VEC_ALIGNOF(sign##int##bits##x##size##_t) <= VEC_ALIGNOF(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " alignment needs to be expanded to fit intrinsic type size"); \
-	VEC_STATIC_ASSERT(sizeof(sign##int##bits##x##size##_t) <= sizeof(v##sign##int##bits##x##size), "vec: v" #sign "int" #bits "x" #size " needs to be expanded to fit intrinsic type size"); \
-	\
 	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_load_aligned(const vec_##sign##int##bits in[size]) \
 	{ \
-		union v##sign##int##bits##x##size##_impl_data vec; \
+		v##sign##int##bits##x##size vec; \
 		vec.neon = vld1_##sign##bits(in); \
-		return vec.vec; \
+		return vec; \
 	} \
 	\
 	static void v##sign##int##bits##x##size##_neon_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \
 	{ \
-		vstore_lane_##bits(sign, ((union v##sign##int##bits##x##size##_impl_data *)&vec)->neon, out); \
+		vstore_lane_##bits(sign, vec.neon, out); \
 	} \
 	\
 	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
 	{ \
-		union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \
+		v##sign##int##bits##x##size vec; \
-		union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \
+		vec.neon = vadd_##sign##bits(vec1.neon, vec2.neon); \
-	\
+		return vec; \
-		vec1d->neon = vadd_##sign##bits(vec1d->neon, vec2d->neon); \
-		return vec1d->vec; \
 	} \
 	\
 	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
 	{ \
-		union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \
+		v##sign##int##bits##x##size vec; \
-		union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \
+		vec.neon = vsub_##sign##bits(vec1.neon, vec2.neon); \
-	\
+		return vec; \
-		vec1d->neon = vsub_##sign##bits(vec1d->neon, vec2d->neon); \
-		return vec1d->vec; \
 	} \
 	\
 	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_mul(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
 	{ \
-		union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \
+		v##sign##int##bits##x##size vec; \
-		union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \
+		vec.neon = vmul_##sign##bits(vec1.neon, vec2.neon); \
-	\
+		return vec; \
-		vec1d->neon = vmul_##sign##bits(vec1d->neon, vec2d->neon); \
-		return vec1d->vec; \
 	} \
 	\
 	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_lshift(v##sign##int##bits##x##size vec1, vuint##bits##x##size vec2) \
 	{ \
-		union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \
+		v##sign##int##bits##x##size vec; \
-		union vuint##bits##x##size##_impl_data *vec2d = (union vuint##bits##x##size##_impl_data *)&vec2; \
+		vec.neon = vshl_##sign##bits(vec1.neon, vreinterpret_##bits##_u##bits(vec2.neon)); \
-	\
+		return vec; \
-		vec1d->neon = vshl_##sign##bits(vec1d->neon, (vreinterpret_##bits##_u##bits)vec2d->neon); \
-		return vec1d->vec; \
 	} \
 	\
 	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
 	{ \
-		union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \
+		v##sign##int##bits##x##size vec; \
-		union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \
+		vec.neon = vand_##sign##bits(vec1.neon, vec2.neon); \
-	\
+		return vec; \
-		vec1d->neon = vand_##sign##bits(vec1d->neon, vec2d->neon); \
-		return vec1d->vec; \
 	} \
 	\
 	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
 	{ \
-		union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \
+		v##sign##int##bits##x##size vec; \
-		union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \
+		vec.neon = vorr_##sign##bits(vec1.neon, vec2.neon); \
-	\
+		return vec; \
-		vec1d->neon = vorr_##sign##bits(vec1d->neon, vec2d->neon); \
-		return vec1d->vec; \
 	} \
 	\
 	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
 	{ \
-		union v##sign##int##bits##x##size##_impl_data *vec1d = (union v##sign##int##bits##x##size##_impl_data *)&vec1; \
+		v##sign##int##bits##x##size vec; \
-		union v##sign##int##bits##x##size##_impl_data *vec2d = (union v##sign##int##bits##x##size##_impl_data *)&vec2; \
+		vec.neon = veor_##sign##bits(vec1.neon, vec2.neon); \
-	\
+		return vec; \
-		vec1d->neon = veor_##sign##bits(vec1d->neon, vec2d->neon); \
-		return vec1d->vec; \
 	} \
 	\
 	static v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_neon = { \
-		v##sign##int##bits##x##size##_fallback_splat, \
+		/* .splat = */ NULL, \
 		v##sign##int##bits##x##size##_neon_load_aligned, \
 		v##sign##int##bits##x##size##_neon_load_aligned, \
 		v##sign##int##bits##x##size##_neon_store_aligned, \
 		v##sign##int##bits##x##size##_neon_store_aligned, \
 		v##sign##int##bits##x##size##_neon_add, \
 		v##sign##int##bits##x##size##_neon_sub, \
 		v##sign##int##bits##x##size##_neon_mul, \
-		v##sign##int##bits##x##size##_fallback_div, \
+		/* .div = */ NULL, \
-		v##sign##int##bits##x##size##_fallback_avg, \
+		/* .avg = */ NULL, \
 		v##sign##int##bits##x##size##_neon_and, \
 		v##sign##int##bits##x##size##_neon_or, \
 		v##sign##int##bits##x##size##_neon_xor, \
-		v##sign##int##bits##x##size##_fallback_not, \
+		/* .not = */ NULL, \
 		v##sign##int##bits##x##size##_neon_lshift, \
-		v##sign##int##bits##x##size##_fallback_rshift, \
+		/* .rshift = */ NULL, \
-		v##sign##int##bits##x##size##_fallback_lrshift, \
+		/* .lrshift = */ NULL, \
-		v##sign##int##bits##x##size##_fallback_cmplt, \
-		v##sign##int##bits##x##size##_fallback_cmple, \
-		v##sign##int##bits##x##size##_fallback_cmpeq, \
-		v##sign##int##bits##x##size##_fallback_cmpge, \
-		v##sign##int##bits##x##size##_fallback_cmpgt, \
 	};
 #define VEC_DEFINE_OPERATIONS(bits, size) \
-	VEC_DEFINE_OPERATIONS_SIGN(u, U, bits, size) \
+	VEC_DEFINE_OPERATIONS_SIGN( ,  , bits, size) \
-	VEC_DEFINE_OPERATIONS_SIGN( ,  , bits, size)
+	VEC_DEFINE_OPERATIONS_SIGN(u, U, bits, size)
 // Ok, we'll start out with the 64-bit types.
 #define vadd_8  vadd_s8
 #define vadd_16 vadd_s16
 #define vreinterpret_8_u8(x) vreinterpretq_s8_u8(x)
 #define vreinterpret_16_u16(x) vreinterpretq_s16_u16(x)
 #define vreinterpret_32_u32(x) vreinterpretq_s32_u32(x)
 #define vreinterpret_64_u64(x) vreinterpretq_s64_u64(x)
+#define VEC_DEFINE_OPERATIONS_SIGN(sign, csign, bits, size) \
+	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_load_aligned(const vec_##sign##int##bits in[size]) \
+	{ \
+		v##sign##int##bits##x##size vec; \
+		vec.neon = vld1_##sign##bits(in); \
+		return vec; \
+	} \
+	\
+	static void v##sign##int##bits##x##size##_neon_store_aligned(v##sign##int##bits##x##size vec, vec_##sign##int##bits out[size]) \
+	{ \
+		vstore_lane_##bits(sign, vec.neon, out); \
+	} \
+	\
+	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_add(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
+	{ \
+		v##sign##int##bits##x##size vec; \
+		vec.neon = vadd_##sign##bits(vec1.neon, vec2.neon); \
+		return vec; \
+	} \
+	\
+	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_sub(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
+	{ \
+		v##sign##int##bits##x##size vec; \
+		vec.neon = vsub_##sign##bits(vec1.neon, vec2.neon); \
+		return vec; \
+	} \
+	\
+	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_mul(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
+	{ \
+		v##sign##int##bits##x##size vec; \
+		vec.neon = vmul_##sign##bits(vec1.neon, vec2.neon); \
+		return vec; \
+	} \
+	\
+	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_lshift(v##sign##int##bits##x##size vec1, vuint##bits##x##size vec2) \
+	{ \
+		v##sign##int##bits##x##size vec; \
+		vec.neon = vshl_##sign##bits(vec1.neon, vreinterpret_##bits##_u##bits(vec2.neon)); \
+		return vec; \
+	} \
+	\
+	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_and(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
+	{ \
+		v##sign##int##bits##x##size vec; \
+		vec.neon = vand_##sign##bits(vec1.neon, vec2.neon); \
+		return vec; \
+	} \
+	\
+	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_or(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
+	{ \
+		v##sign##int##bits##x##size vec; \
+		vec.neon = vorr_##sign##bits(vec1.neon, vec2.neon); \
+		return vec; \
+	} \
+	\
+	static v##sign##int##bits##x##size v##sign##int##bits##x##size##_neon_xor(v##sign##int##bits##x##size vec1, v##sign##int##bits##x##size vec2) \
+	{ \
+		v##sign##int##bits##x##size vec; \
+		vec.neon = veor_##sign##bits(vec1.neon, vec2.neon); \
+		return vec; \
+	} \
+	\
+	static v##sign##int##bits##x##size##_impl v##sign##int##bits##x##size##_impl_neon = { \
+		/* .splat = */ NULL, \
+		v##sign##int##bits##x##size##_neon_load_aligned, \
+		v##sign##int##bits##x##size##_neon_load_aligned, \
+		v##sign##int##bits##x##size##_neon_store_aligned, \
+		v##sign##int##bits##x##size##_neon_store_aligned, \
+		v##sign##int##bits##x##size##_neon_add, \
+		v##sign##int##bits##x##size##_neon_sub, \
+		v##sign##int##bits##x##size##_neon_mul, \
+		/* .div = */ NULL, \
+		/* .avg = */ NULL, \
+		v##sign##int##bits##x##size##_neon_and, \
+		v##sign##int##bits##x##size##_neon_or, \
+		v##sign##int##bits##x##size##_neon_xor, \
+		/* .not = */ NULL, \
+		v##sign##int##bits##x##size##_neon_lshift, \
+		/* .rshift = */ NULL, \
+		/* .lrshift = */ NULL, \
+	};
+#define VEC_DEFINE_OPERATIONS(bits, size) \
+	VEC_DEFINE_OPERATIONS_SIGN( ,  , bits, size) \
+	VEC_DEFINE_OPERATIONS_SIGN(u, U, bits, size)
 VEC_DEFINE_OPERATIONS(8, 16)
 VEC_DEFINE_OPERATIONS(16, 8)
 VEC_DEFINE_OPERATIONS(32, 4)
 VEC_DEFINE_OPERATIONS(64, 2)

Mercurial > vec

comparison src/impl/arm/neon.c @ 32:0de48dc864ea