default ice-ref to c-step (#4812)

Hector Yuen · facebook-github-bot · commit 06d43dc69a40 · 2020-08-19T09:50:34.000-07:00
Summary: Pull Request resolved: pytorch/glow#4812 if no compilation options are passed, default to c-step fixed the FC and batchmatmul implementations to match C-step fixed the fakelowp map calling to make sure we use the fp32 substitution of operators updated the accumulator test to make it pass with fp32 Test Plan: fakelowp tests glow/test/numerics net_runner Reviewed By: jfix71 Differential Revision: D23086534 fbshipit-source-id: 3fbb8c4055bb190becb39ce8cdff6671f8558734
diff --git a/caffe2/contrib/fakelowp/fp16_gemm_utils.cc b/caffe2/contrib/fakelowp/fp16_gemm_utils.cc
@@ -6,6 +6,8 @@
 #include "caffe2/core/context.h"
 #include "caffe2/utils/math.h"
 
+C10_DECLARE_bool(caffe2_fbgemm_fake_fp16_clamp);
+
 namespace caffe2 {
 
 // dimA(before transpose) = M x N, dimA (after transpose) = N x M.
@@ -26,12 +28,6 @@ void custom_fp16_gemm_with_trans(
     float* C,
     const bool use_acc_fp16,
     const bool use_temp_accumulator) {
-  if (!use_acc_fp16 && !use_temp_accumulator) {
-    math::Gemm<float, CPUContext>(
-        trans_A, trans_B, m, n, k, 1.0f, A, B, beta, C, nullptr);
-    return;
-  }
-
   switch (trans_A) {
     case CblasNoTrans: {
       switch (trans_B) {
@@ -126,22 +122,6 @@ void custom_fp16_gemm(
     float* C,
     const bool use_acc_fp16,
     const bool use_temp_accumulator) {
-  if (!use_acc_fp16 && !use_temp_accumulator) {
-    math::Gemm<float, CPUContext>(
-        CblasNoTrans,
-        CblasNoTrans,
-        m,
-        n,
-        k,
-        1.0f,
-        A_fp16,
-        B_fp16,
-        beta,
-        C,
-        nullptr);
-    return;
-  }
-
 #ifdef LOG_LEVEL_FOR_FBFCPACkEDACC16_PERFORmAnCE_LOG
   clock_t begin = clock();
 #endif
@@ -300,6 +280,29 @@ void custom_fp16_gemm(
       }
     }
   }
+
+  if (!use_acc_fp16) {
+    constexpr int kSize=8;
+    int i = 0;
+    for (; i + kSize <= C_size; i+= kSize) {
+      __m256 mC = _mm256_loadu_ps(C + i);
+      mC = _mm256_cvtph_ps(_mm256_cvtps_ph(mC, 0));
+      _mm256_storeu_ps(C + i, mC);
+    }
+    if (i < C_size){
+      vector<float> tmp(8);
+      for (int kk =0; kk + i < C_size; kk++) {
+        tmp[kk] = C[i + kk];
+      }
+      __m256 mC = _mm256_loadu_ps(tmp.data());
+      mC = _mm256_cvtph_ps(_mm256_cvtps_ph(mC, 0));
+      _mm256_storeu_ps(tmp.data(), mC);
+      for (int kk =0; kk + i < C_size; kk++) {
+        C[i + kk] = tmp[kk];
+      }
+    }
+  }
+
 #ifdef LOG_LEVEL_FOR_FBFCPACkEDACC16_PERFORmAnCE_LOG
   clock_t end = clock();
   double elapsed_secs = double(end - begin) / CLOCkS_PER_SEC;
diff --git a/caffe2/contrib/fakelowp/test/test_batchmatmul_nnpi_fp16.py b/caffe2/contrib/fakelowp/test/test_batchmatmul_nnpi_fp16.py
@@ -21,9 +21,9 @@
 class TestBatchMatMul(serial.SerializedTestCase):
     @given(
         # C=0, #st.integers(min_value=0, max_value=3),  # number of batch dims
-        M=st.integers(min_value=1, max_value=10),
-        K=st.integers(min_value=1, max_value=10),
-        N=st.integers(min_value=1, max_value=10),
+        M=st.integers(min_value=1, max_value=50),
+        K=st.integers(min_value=1, max_value=50),
+        N=st.integers(min_value=1, max_value=50),
         rand_seed=st.integers(0, 65534),
         trans_a=st.booleans(),
         trans_b=st.booleans(),
@@ -65,7 +65,9 @@ def test_batch_matmul(self, M, K, N, rand_seed, trans_a, trans_b, run_ints):
         )
 
         pred_net_ref = core.Net("pred_net_ref")
-        pred_net_ref.BatchMatMulFP16Acc16Fake(
+
+        # Reference updated to fp16 with fp32 accumulation
+        pred_net_ref.BatchMatMulFP16Acc32Fake(
             ["X", "Y"], ['out'], trans_a=trans_a, trans_b=trans_b)
 
         print("dims", batch_dims, X.shape, Y.shape)
@@ -98,7 +100,10 @@ def test_batch_matmul(self, M, K, N, rand_seed, trans_a, trans_b, run_ints):
             print_test_debug_info("bmm", {
                 "seed": rand_seed,
                 "m": M, "k": K,
-                "n": N, "X": X, "Y": Y,
+                "n": N, "X": X.shape, "Y": Y.shape,
+                "trans_a": trans_a,
+                "trans_b": trans_b,
+                "run_ints": run_ints,
                 "out_glow": out_glow,
                 "out_c2_fakefp16": out_c2_fakefp16,
                 "diff": diff
diff --git a/caffe2/contrib/fakelowp/test/test_fc_nnpi_fp16.py b/caffe2/contrib/fakelowp/test/test_fc_nnpi_fp16.py
@@ -76,16 +76,18 @@ def test_clip(self, seed):
         Y_glow = workspace.FetchBlob("Y")
         np.testing.assert_allclose(Y_glow, np.full((m, n), 65504.0, dtype))
 
-    @given(seed=st.integers(0, 65534))
+    @given(
+        m=st.integers(4, 50),
+        k=st.integers(4, 50),
+        n=st.integers(4, 50),
+        seed=st.integers(0, 65534)
+    )
     @settings(deadline=None)
-    def test_fc_exercise(self, seed):
+    def test_fc_exercise(self, m, k, n, seed):
         """ Test that the matmul engine is working, this doesn't test
             precision
         """
         np.random.seed(seed)
-        m = np.random.randint(low=4, high=50)
-        k = np.random.randint(low=4, high=50)
-        n = np.random.randint(low=4, high=50)
         dtype = np.float32
         pred_net = caffe2_pb2.NetDef()
         pred_net.name = "pred"
@@ -144,13 +146,11 @@ def test_fc_exercise(self, seed):
                     "diff": np.abs((Y_c2 - Y_glow) / Y_c2)})
                 assert(0)
 
-    @given(seed=st.integers(0, 65534))
-    @settings(deadline=None)
-    def test_fc_numeric_cases(self, seed):
+    @settings(deadline=None, max_examples=1)
+    def test_fc_numeric_cases(self):
         """ Test numerics, use examples found from the unit test.
             Use Fp16FCAcc16NNPI as a reference.
         """
-        np.random.seed(seed)
         m = 1
         k = 20
         n = 1
@@ -172,7 +172,7 @@ def test_fc_numeric_cases(self, seed):
         pred_net_ref.external_output.append("Y")
         pred_net_ref.op.add().CopyFrom(
             core.CreateOperator(
-                "Fp16FCAcc16NNPI",
+                "Fp16FCAcc32NNPI",
                 ["X", "W0", "b0"],
                 ["Y"],
             )
@@ -203,11 +203,6 @@ def test_fc_numeric_cases(self, seed):
             1 if o.type == "Onnxifi" else 0 for o in pred_net_onnxified.op)
         np.testing.assert_equal(num_onnxified_ops, 1)
 
-        X0 = np.random.rand(m, k).astype(dtype) - 0.5
-        workspace.FeedBlob("X", X0)
-        workspace.CreateNet(pred_net_onnxified)
-        workspace.CreateNet(pred_net_ref)
-
         X_inputs = [
             np.array([[
                 -2.94921875e-01, -3.58642578e-01, -1.92871094e-01,
@@ -235,6 +230,11 @@ def test_fc_numeric_cases(self, seed):
                 0.24389648, -0.23486328]], dtype=np.float32)
         ]
 
+        # keep onnxifi happy by feeding something with a shape
+        workspace.FeedBlob("X", X_inputs[0])
+        workspace.CreateNet(pred_net_onnxified)
+        workspace.CreateNet(pred_net_ref)
+
         for i in range(len(X_inputs)):
             workspace.FeedBlob("X", X_inputs[i])
             # Run Glow net
@@ -263,17 +263,18 @@ def test_fc_numeric_cases(self, seed):
                     "rowdiff": rowdiff})
                 assert(0)
 
-    @settings(max_examples=5, deadline=None)
-    @given(seed=st.integers(0, 65535))
-    def test_fc_num0(self, seed):
+    @settings(deadline=None)
+    @given(
+        m=st.integers(1, 50),
+        k=st.integers(1, 1000),
+        n=st.integers(1, 50),
+        seed=st.integers(0, 65534),
+        use_packed=st.integers(0, 2)
+    )
+    def test_fc_num0(self, seed, m, k, n, use_packed):
         """ Test numerics, fix a dimension and determine the ranges of error.
             Use Fp16FCAcc16 as a reference.
         """
-        np.random.seed(seed)
-        m = np.random.randint(low=4, high=50)
-        k = np.random.randint(low=4, high=1000)
-        n = np.random.randint(low=4, high=50)
-        use_packed = np.random.randint(2)
         W = "W_packed" if use_packed else "W0"
         dtype = np.float32
         pred_net = caffe2_pb2.NetDef()
@@ -293,7 +294,7 @@ def test_fc_num0(self, seed):
         pred_net_ref.external_output.append("Y")
         pred_net_ref.op.add().CopyFrom(
             core.CreateOperator(
-                "Fp16FCAcc16NNPI",
+                "Fp16FCAcc32NNPI",
                 ["X", W, "b0"],
                 ["Y"],
             )
@@ -329,37 +330,32 @@ def test_fc_num0(self, seed):
         workspace.CreateNet(pred_net_onnxified)
         workspace.CreateNet(pred_net_ref)
 
-        num_iterations = 10
-        for _ in range(num_iterations):
-            X0 = 100 * (np.random.rand(m, k) - 0.5).\
-                astype(np.float16).astype(np.float32)
-            workspace.FeedBlob("X", X0)
-            # Run Glow net
-            workspace.RunNet(pred_net_onnxified.name)
-            Y_glow = workspace.FetchBlob('Y')
-            # Run caffe2 net
-            workspace.RunNet(pred_net_ref.name)
-            Y_c2 = workspace.FetchBlob('Y')
-
-            diff = np.abs((Y_c2 - Y_glow) / (Y_c2 + 1e-8))
-            rowdiff = np.max(diff, axis=1)
-
-            n_offenders = np.count_nonzero(rowdiff[rowdiff > GLOW_MATMUL_RTOL])
-            if n_offenders > 0:
-                print_test_debug_info("fc", {
-                    "seed": seed,
-                    "iter": _,
-                    "m": m,
-                    "k": k,
-                    "n": n,
-                    "X": X0,
-                    "W0": W0,
-                    "b0": b0,
-                    "Y_glow": Y_glow,
-                    "Y_c2": Y_c2,
-                    "diff": diff,
-                    "rowdiff": rowdiff})
-                assert(0)
+        workspace.RunNet(pred_net_onnxified.name)
+        Y_glow = workspace.FetchBlob('Y')
+
+        # Run caffe2 net
+        workspace.RunNet(pred_net_ref.name)
+        Y_c2 = workspace.FetchBlob('Y')
+
+        diff = np.abs((Y_c2 - Y_glow) / (Y_c2 + 1e-8))
+        rowdiff = np.max(diff, axis=1)
+
+        n_offenders = np.count_nonzero(rowdiff[rowdiff > GLOW_MATMUL_RTOL])
+        if n_offenders > 0:
+            print_test_debug_info("fc", {
+                "seed": seed,
+                "use_packed": use_packed,
+                "m": m,
+                "k": k,
+                "n": n,
+                "X": X0.shape,
+                "W0": W0.shape,
+                "b0": b0.shape,
+                "Y_glow": Y_glow,
+                "Y_c2": Y_c2,
+                "diff": diff,
+                "rowdiff": rowdiff})
+            assert(0)
 
 if __name__ == '__main__':
     unittest.main()