handle mixed-sign widening_shl

rootjalex · rootjalex · commit eba8f325edfa · 2023-08-22T17:04:25.000-07:00
diff --git a/src/DistributeShifts.cpp b/src/DistributeShifts.cpp
@@ -143,20 +143,28 @@ class DistributeShiftsAsMuls : public IRMutator {
         return IRMutator::visit(op);
     }
 
-    template<typename T>
-    Expr visit_add_sub(const T *op) {
-        if (multiply_adds) {
-            Expr a, b;
-            if (const Call *a_call = op->a.template as<Call>()) {
-                if (a_call->is_intrinsic({Call::shift_left, Call::widening_shift_left})) {
-                    a = distribute_shift(a_call);
-                }
+    Expr handle_shift(const Expr &expr) {
+        Expr ret;
+        if (const Call *as_call = expr.template as<Call>()) {
+            if (as_call->is_intrinsic({Call::shift_left, Call::widening_shift_left})) {
+                ret = distribute_shift(as_call);
             }
-            if (const Call *b_call = op->b.template as<Call>()) {
-                if (b_call->is_intrinsic({Call::shift_left, Call::widening_shift_left})) {
-                    b = distribute_shift(b_call);
+        } else if (const Cast *as_cast = expr.template as<Cast>()) {
+            if (as_cast->is_reinterpret()) {
+                ret = handle_shift(as_cast->value);
+                if (ret.defined()) {
+                    ret = cast(as_cast->type, ret);
                 }
             }
+        }
+        return ret;
+    }
+
+    template<typename T>
+    Expr visit_add_sub(const T *op) {
+        if (multiply_adds) {
+            Expr a = handle_shift(op->a);
+            Expr b = handle_shift(op->b);
 
             if (a.defined() && b.defined()) {
                 return T::make(a, b);
diff --git a/src/FindIntrinsics.cpp b/src/FindIntrinsics.cpp
@@ -879,6 +879,19 @@ class FindIntrinsics : public IRMutator {
                 return mutate(result);
             }
 
+            // Try to lossless cast to uint.
+            if (op->type.is_int() && bits >= 16) {
+                Type uint_type = op->type.narrow().with_code(halide_type_uint);
+                Expr a_narrow = lossless_cast(uint_type, op->args[0]);
+                Expr b_narrow = lossless_cast(uint_type, op->args[1]);
+                if (a_narrow.defined() && b_narrow.defined()) {
+                    Expr result = op->is_intrinsic(Call::shift_left) ? widening_shift_left(a_narrow, b_narrow) : widening_shift_right(a_narrow, b_narrow);
+                    internal_assert(result.type() != op->type);
+                    result = Cast::make(op->type, result);
+                    return mutate(result);
+                }
+            }
+
             // Try to turn this into a rounding shift.
             Expr rounding_shift = to_rounding_shift(op);
             if (rounding_shift.defined()) {
diff --git a/test/correctness/simd_op_check_arm.cpp b/test/correctness/simd_op_check_arm.cpp
@@ -404,28 +404,34 @@ class SimdOpCheckARM : public SimdOpCheckTest {
             check(arm32 ? "vmlal.s8" : "smlal", 8 * w, i16_1 + i16(i8_2) * 2);
             check(arm32 ? "vmlal.u8" : "umlal", 8 * w, u16_1 + u16(u8_2) * u8_3);
             check(arm32 ? "vmlal.u8" : "umlal", 8 * w, u16_1 + u16(u8_2) * 2);
+            check(arm32 ? "vmlal.u8" : "umlal", 8 * w, i16_1 + i16(u8_2) * 2);
             check(arm32 ? "vmlal.s16" : "smlal", 4 * w, i32_1 + i32(i16_2) * i16_3);
             check(arm32 ? "vmlal.s16" : "smlal", 4 * w, i32_1 + i32(i16_2) * 2);
             check(arm32 ? "vmlal.u16" : "umlal", 4 * w, u32_1 + u32(u16_2) * u16_3);
             check(arm32 ? "vmlal.u16" : "umlal", 4 * w, u32_1 + u32(u16_2) * 2);
+            check(arm32 ? "vmlal.u16" : "umlal", 4 * w, i32_1 + i32(u16_2) * 2);
             check(arm32 ? "vmlal.s32" : "smlal", 2 * w, i64_1 + i64(i32_2) * i32_3);
             check(arm32 ? "vmlal.s32" : "smlal", 2 * w, i64_1 + i64(i32_2) * 2);
             check(arm32 ? "vmlal.u32" : "umlal", 2 * w, u64_1 + u64(u32_2) * u32_3);
             check(arm32 ? "vmlal.u32" : "umlal", 2 * w, u64_1 + u64(u32_2) * 2);
+            check(arm32 ? "vmlal.u32" : "umlal", 2 * w, i64_1 + i64(u32_2) * 2);
 
             // VMLSL    I       -       Multiply Subtract Long
             check(arm32 ? "vmlsl.s8" : "smlsl", 8 * w, i16_1 - i16(i8_2) * i8_3);
             check(arm32 ? "vmlsl.s8" : "smlsl", 8 * w, i16_1 - i16(i8_2) * 2);
             check(arm32 ? "vmlsl.u8" : "umlsl", 8 * w, u16_1 - u16(u8_2) * u8_3);
             check(arm32 ? "vmlsl.u8" : "umlsl", 8 * w, u16_1 - u16(u8_2) * 2);
+            check(arm32 ? "vmlsl.u8" : "umlsl", 8 * w, i16_1 - i16(u8_2) * 2);
             check(arm32 ? "vmlsl.s16" : "smlsl", 4 * w, i32_1 - i32(i16_2) * i16_3);
             check(arm32 ? "vmlsl.s16" : "smlsl", 4 * w, i32_1 - i32(i16_2) * 2);
             check(arm32 ? "vmlsl.u16" : "umlsl", 4 * w, u32_1 - u32(u16_2) * u16_3);
             check(arm32 ? "vmlsl.u16" : "umlsl", 4 * w, u32_1 - u32(u16_2) * 2);
+            check(arm32 ? "vmlsl.u16" : "umlsl", 4 * w, i32_1 - i32(u16_2) * 2);
             check(arm32 ? "vmlsl.s32" : "smlsl", 2 * w, i64_1 - i64(i32_2) * i32_3);
             check(arm32 ? "vmlsl.s32" : "smlsl", 2 * w, i64_1 - i64(i32_2) * 2);
             check(arm32 ? "vmlsl.u32" : "umlsl", 2 * w, u64_1 - u64(u32_2) * u32_3);
             check(arm32 ? "vmlsl.u32" : "umlsl", 2 * w, u64_1 - u64(u32_2) * 2);
+            check(arm32 ? "vmlsl.u32" : "umlsl", 2 * w, i64_1 - i64(u32_2) * 2);
 
             // VMOV     X       F, D    Move Register or Immediate
             // This is for loading immediates, which we won't do in the inner loop anyway