compile AVX and AVX2 intrinsic code in separate files. Cleanup use of USE_AVX and USE_AVX2 macros in favor of __AVX__ and __AVX2__

soumith · soumith · commit f5338a1fb882 · 2017-03-03T10:30:18.000-08:00
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -116,18 +116,18 @@ IF(NOT NO_GCC_EBX_FPIC_BUG)
 ENDIF(NOT NO_GCC_EBX_FPIC_BUG)
 
 
-FIND_PACKAGE(SSE)
+FIND_PACKAGE(SSE) # checks SSE, AVX and AVX2
 IF(C_SSE2_FOUND)
   SET(CMAKE_C_FLAGS "${C_SSE2_FLAGS} -DUSE_SSE2 ${CMAKE_C_FLAGS}")
 ENDIF(C_SSE2_FOUND)
 IF(C_SSE3_FOUND)
   SET(CMAKE_C_FLAGS "${C_SSE3_FLAGS} -DUSE_SSE3 ${CMAKE_C_FLAGS}")
 ENDIF(C_SSE3_FOUND)
 IF(C_AVX_FOUND)
-  SET(CMAKE_C_FLAGS "${C_AVX_FLAGS} -DUSE_AVX ${CMAKE_C_FLAGS}")
+  SET(CMAKE_C_FLAGS "${C_AVX_FLAGS} ${CMAKE_C_FLAGS}")
 ENDIF(C_AVX_FOUND)
 IF(C_AVX2_FOUND)
-  SET(CMAKE_C_FLAGS "${C_AVX2_FLAGS} -DUSE_AVX2 ${CMAKE_C_FLAGS}")
+  SET(CMAKE_C_FLAGS "${C_AVX2_FLAGS} ${CMAKE_C_FLAGS}")
 ENDIF(C_AVX2_FOUND)
 
 CHECK_C_SOURCE_RUNS("
@@ -208,7 +208,6 @@ ELSE(MSVC)
 ENDIF(MSVC)
 
 IF(C_AVX_FOUND OR C_AVX2_FOUND)
-  SET(CMAKE_C_FLAGS "-DUSE_AVX ${CMAKE_C_FLAGS}")
   IF(MSVC)
     SET_SOURCE_FILES_PROPERTIES(generic/simd/convolve5x5_avx.c PROPERTIES COMPILE_FLAGS "/Ox /fp:fast /arch:AVX /std:c99")
   ELSE(MSVC)
@@ -225,6 +224,8 @@ SET(src
   THGeneral.c THHalf.c THAllocator.c THStorage.c THTensor.c THBlas.c THLapack.c
   THLogAdd.c THRandom.c THFile.c THDiskFile.c THMemoryFile.c THAtomic.c THVector.c)
 
+SET(src ${src} vector/AVX.c vector/AVX2.c)
+
 SET(src ${src} ${hdr} ${simd})
 
 #######################################################################
@@ -364,6 +365,11 @@ INSTALL(FILES
   THHalf.h
   DESTINATION "${TH_INSTALL_INCLUDE_SUBDIR}/TH")
 
+INSTALL(FILES
+  vector/AVX.h
+  vector/AVX2.h
+  DESTINATION "${TH_INSTALL_INCLUDE_SUBDIR}/TH/vector")
+
 INSTALL(FILES
   generic/THBlas.c
   generic/THBlas.h
diff --git a/THVector.c b/THVector.c
@@ -15,12 +15,12 @@
 #include "vector/SSE.c"
 #endif
 
-#if defined(USE_AVX) || defined(USE_AVX2)
-#include "vector/AVX.c"
+#if defined(__AVX__) || defined(__AVX2__)
+#include "vector/AVX.h"
 #endif
 
-#if defined(USE_AVX2)
-#include "vector/AVX2.c"
+#if defined(__AVX2__)
+#include "vector/AVX2.h"
 #endif
 
 #include "generic/THVectorDefault.c"
diff --git a/generic/THVectorDispatch.c b/generic/THVectorDispatch.c
@@ -26,7 +26,7 @@ static FunctionDescription THVector_(fill_DISPATCHTABLE)[] = {
     #endif
   #endif
 
-  #if defined(USE_AVX)
+  #if defined(__AVX__)
     #if defined(TH_REAL_IS_DOUBLE) || defined(TH_REAL_IS_FLOAT)
       FUNCTION_IMPL(THVector_(fill_AVX), SIMDExtension_AVX),
     #endif
@@ -52,13 +52,13 @@ static FunctionDescription THVector_(cadd_DISPATCHTABLE)[] = {
     #endif
   #endif
 
-  #if defined(USE_AVX2)
+  #if defined(__AVX2__)
     #if defined(TH_REAL_IS_DOUBLE) || defined(TH_REAL_IS_FLOAT)
       FUNCTION_IMPL(THVector_(cadd_AVX2), SIMDExtension_AVX2),
     #endif
   #endif
 
-  #if defined(USE_AVX)
+  #if defined(__AVX__)
     #if defined(TH_REAL_IS_DOUBLE) || defined(TH_REAL_IS_FLOAT)
       FUNCTION_IMPL(THVector_(cadd_AVX), SIMDExtension_AVX),
     #endif
@@ -91,7 +91,7 @@ static FunctionDescription THVector_(adds_DISPATCHTABLE)[] = {
     #endif
   #endif
 
-  #if defined(USE_AVX)
+  #if defined(__AVX__)
     #if defined(TH_REAL_IS_DOUBLE) || defined(TH_REAL_IS_FLOAT)
       FUNCTION_IMPL(THVector_(adds_AVX), SIMDExtension_AVX),
     #endif
@@ -119,7 +119,7 @@ static FunctionDescription THVector_(cmul_DISPATCHTABLE)[] = {
     #endif
   #endif
 
-  #if defined(USE_AVX)
+  #if defined(__AVX__)
     #if defined(TH_REAL_IS_DOUBLE) || defined(TH_REAL_IS_FLOAT)
       FUNCTION_IMPL(THVector_(cmul_AVX), SIMDExtension_AVX),
     #endif
@@ -152,7 +152,7 @@ static FunctionDescription THVector_(muls_DISPATCHTABLE)[] = {
     #endif
   #endif
 
-  #if defined(USE_AVX)
+  #if defined(__AVX__)
     #if defined(TH_REAL_IS_DOUBLE) || defined(TH_REAL_IS_FLOAT)
       FUNCTION_IMPL(THVector_(muls_AVX), SIMDExtension_AVX),
     #endif
@@ -179,7 +179,7 @@ static FunctionDescription THVector_(cdiv_DISPATCHTABLE)[] = {
     #endif
   #endif
 
-  #if defined(USE_AVX)
+  #if defined(__AVX__)
     #if defined(TH_REAL_IS_DOUBLE) || defined(TH_REAL_IS_FLOAT)
       FUNCTION_IMPL(THVector_(cdiv_AVX), SIMDExtension_AVX),
     #endif
@@ -206,7 +206,7 @@ static FunctionDescription THVector_(divs_DISPATCHTABLE)[] = {
     #endif
   #endif
 
-  #if defined(USE_AVX)
+  #if defined(__AVX__)
     #if defined(TH_REAL_IS_DOUBLE) || defined(TH_REAL_IS_FLOAT)
       FUNCTION_IMPL(THVector_(divs_AVX), SIMDExtension_AVX),
     #endif
@@ -227,7 +227,7 @@ void THVector_(divs)(real *y, const real *x, const real c, const ptrdiff_t n) {
 
 static void (*THVector_(copy_DISPATCHPTR))(real *, const real *, const ptrdiff_t) = &THVector_(copy_DEFAULT);
 static FunctionDescription THVector_(copy_DISPATCHTABLE)[] = {
-  #if defined(USE_AVX)
+  #if defined(__AVX__)
     #if defined(TH_REAL_IS_DOUBLE) || defined(TH_REAL_IS_FLOAT)
       FUNCTION_IMPL(THVector_(copy_AVX), SIMDExtension_AVX),
     #endif
diff --git a/generic/simd/convolve.c b/generic/simd/convolve.c
@@ -1,4 +1,4 @@
-#if defined(USE_AVX)
+#if defined(__AVX__)
 
 #ifdef _MSC_VER
 #include <intrin.h>
@@ -113,7 +113,7 @@ void convolve_5x5_sse(float* output, float* input, float* kernel, long outRows,
 void convolve_5x5_avx(float* output, float* input, float* kernel, long outRows, long outCols, long outStride, long inCols);
 
 void convolve_5x5(float* output, float* input, float* kernel, long outRows, long outCols, long inCols) {
-#if defined(USE_AVX)
+#if defined(__AVX__)
   int avx = haveCPUFeature(kCPUFeature_AVX);
   if (avx)
   {
@@ -124,4 +124,4 @@ void convolve_5x5(float* output, float* input, float* kernel, long outRows, long
   {
     convolve_5x5_sse(output, input, kernel, outRows, outCols, outCols, inCols);
   }
-}
+}
diff --git a/vector/AVX.c b/vector/AVX.c
@@ -1,10 +1,13 @@
+#if defined(__AVX__)
 #ifndef _MSC_VER
 #include <x86intrin.h>
 #else
 #include <intrin.h>
 #endif
 
-static void THDoubleVector_copy_AVX(double *y, const double *x, const ptrdiff_t n) {
+#include "AVX.h"
+
+void THDoubleVector_copy_AVX(double *y, const double *x, const ptrdiff_t n) {
   ptrdiff_t i;
   ptrdiff_t off;
   for (i=0; i<=((n)-8); i+=8) {
@@ -17,7 +20,7 @@ static void THDoubleVector_copy_AVX(double *y, const double *x, const ptrdiff_t
   }
 }
 
-static void THDoubleVector_fill_AVX(double *x, const double c, const ptrdiff_t n) {
+void THDoubleVector_fill_AVX(double *x, const double c, const ptrdiff_t n) {
   ptrdiff_t i;
   ptrdiff_t off;
   __m256d YMM0 = _mm256_set_pd(c, c, c, c);
@@ -33,7 +36,7 @@ static void THDoubleVector_fill_AVX(double *x, const double c, const ptrdiff_t n
   }
 }
 
-static void THDoubleVector_cdiv_AVX(double *z, const double *x, const double *y, const ptrdiff_t n) {
+void THDoubleVector_cdiv_AVX(double *z, const double *x, const double *y, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256d YMM0, YMM1, YMM2, YMM3;
   for (i=0; i<=((n)-8); i+=8) {
@@ -51,7 +54,7 @@ static void THDoubleVector_cdiv_AVX(double *z, const double *x, const double *y,
   }
 }
 
-static void THDoubleVector_divs_AVX(double *y, const double *x, const double c, const ptrdiff_t n) {
+void THDoubleVector_divs_AVX(double *y, const double *x, const double c, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256d YMM15 = _mm256_set_pd(c, c, c, c);
   __m256d YMM0, YMM1;
@@ -68,7 +71,7 @@ static void THDoubleVector_divs_AVX(double *y, const double *x, const double c,
   }
 }
 
-static void THDoubleVector_cmul_AVX(double *z, const double *x, const double *y, const ptrdiff_t n) {
+void THDoubleVector_cmul_AVX(double *z, const double *x, const double *y, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256d YMM0, YMM1, YMM2, YMM3;
   for (i=0; i<=((n)-8); i+=8) {
@@ -86,7 +89,7 @@ static void THDoubleVector_cmul_AVX(double *z, const double *x, const double *y,
   }
 }
 
-static void THDoubleVector_muls_AVX(double *y, const double *x, const double c, const ptrdiff_t n) {
+void THDoubleVector_muls_AVX(double *y, const double *x, const double c, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256d YMM15 = _mm256_set_pd(c, c, c, c);
   __m256d YMM0, YMM1;
@@ -103,7 +106,7 @@ static void THDoubleVector_muls_AVX(double *y, const double *x, const double c,
   }
 }
 
-static void THDoubleVector_cadd_AVX(double *z, const double *x, const double *y, const double c, const ptrdiff_t n) {
+void THDoubleVector_cadd_AVX(double *z, const double *x, const double *y, const double c, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256d YMM15 = _mm256_set_pd(c, c, c, c);
   __m256d YMM0, YMM1, YMM2, YMM3;
@@ -119,7 +122,7 @@ static void THDoubleVector_cadd_AVX(double *z, const double *x, const double *y,
   }
 }
 
-static void THDoubleVector_adds_AVX(double *y, const double *x, const double c, const ptrdiff_t n) {
+void THDoubleVector_adds_AVX(double *y, const double *x, const double c, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256d YMM15 = _mm256_set_pd(c, c, c, c);
   __m256d YMM0, YMM1;
@@ -136,7 +139,7 @@ static void THDoubleVector_adds_AVX(double *y, const double *x, const double c,
   }
 }
 
-static void THFloatVector_copy_AVX(float *y, const float *x, const ptrdiff_t n) {
+void THFloatVector_copy_AVX(float *y, const float *x, const ptrdiff_t n) {
   ptrdiff_t i;
   ptrdiff_t off;
   for (i=0; i<=((n)-16); i+=16) {
@@ -149,7 +152,7 @@ static void THFloatVector_copy_AVX(float *y, const float *x, const ptrdiff_t n)
   }
 }
 
-static void THFloatVector_fill_AVX(float *x, const float c, const ptrdiff_t n) {
+void THFloatVector_fill_AVX(float *x, const float c, const ptrdiff_t n) {
   ptrdiff_t i;
   ptrdiff_t off;
   __m256 YMM0 = _mm256_set_ps(c, c, c, c, c, c, c, c);
@@ -165,7 +168,7 @@ static void THFloatVector_fill_AVX(float *x, const float c, const ptrdiff_t n) {
   }
 }
 
-static void THFloatVector_cdiv_AVX(float *z, const float *x, const float *y, const ptrdiff_t n) {
+void THFloatVector_cdiv_AVX(float *z, const float *x, const float *y, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256 YMM0, YMM1, YMM2, YMM3;
   for (i=0; i<=((n)-16); i+=16) {
@@ -183,7 +186,7 @@ static void THFloatVector_cdiv_AVX(float *z, const float *x, const float *y, con
   }
 }
 
-static void THFloatVector_divs_AVX(float *y, const float *x, const float c, const ptrdiff_t n) {
+void THFloatVector_divs_AVX(float *y, const float *x, const float c, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256 YMM15 = _mm256_set_ps(c, c, c, c, c, c, c, c);
   __m256 YMM0, YMM1;
@@ -200,7 +203,7 @@ static void THFloatVector_divs_AVX(float *y, const float *x, const float c, cons
   }
 }
 
-static void THFloatVector_cmul_AVX(float *z, const float *x, const float *y, const ptrdiff_t n) {
+void THFloatVector_cmul_AVX(float *z, const float *x, const float *y, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256 YMM0, YMM1, YMM2, YMM3;
   for (i=0; i<=((n)-16); i+=16) {
@@ -218,7 +221,7 @@ static void THFloatVector_cmul_AVX(float *z, const float *x, const float *y, con
   }
 }
 
-static void THFloatVector_muls_AVX(float *y, const float *x, const float c, const ptrdiff_t n) {
+void THFloatVector_muls_AVX(float *y, const float *x, const float c, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256 YMM15 = _mm256_set_ps(c, c, c, c, c, c, c, c);
   __m256 YMM0, YMM1;
@@ -235,7 +238,7 @@ static void THFloatVector_muls_AVX(float *y, const float *x, const float c, cons
   }
 }
 
-static void THFloatVector_cadd_AVX(float *z, const float *x, const float *y, const float c, const ptrdiff_t n) {
+void THFloatVector_cadd_AVX(float *z, const float *x, const float *y, const float c, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256 YMM15 = _mm256_set_ps(c, c, c, c, c, c, c, c);
   __m256 YMM0, YMM1, YMM2, YMM3;
@@ -251,7 +254,7 @@ static void THFloatVector_cadd_AVX(float *z, const float *x, const float *y, con
   }
 }
 
-static void THFloatVector_adds_AVX(float *y, const float *x, const float c, const ptrdiff_t n) {
+void THFloatVector_adds_AVX(float *y, const float *x, const float c, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256 YMM15 = _mm256_set_ps(c, c, c, c, c, c, c, c);
   __m256 YMM0, YMM1;
@@ -267,3 +270,5 @@ static void THFloatVector_adds_AVX(float *y, const float *x, const float c, cons
     y[i] = x[i] + c;
   }
 }
+
+#endif // defined(__AVX__)
diff --git a/vector/AVX.h b/vector/AVX.h
@@ -0,0 +1,23 @@
+#ifndef TH_AVX_H
+#define TH_AVX_H
+
+#include <stddef.h>
+
+void THDoubleVector_copy_AVX(double *y, const double *x, const ptrdiff_t n);
+void THDoubleVector_fill_AVX(double *x, const double c, const ptrdiff_t n);
+void THDoubleVector_cdiv_AVX(double *z, const double *x, const double *y, const ptrdiff_t n);
+void THDoubleVector_divs_AVX(double *y, const double *x, const double c, const ptrdiff_t n);
+void THDoubleVector_cmul_AVX(double *z, const double *x, const double *y, const ptrdiff_t n);
+void THDoubleVector_muls_AVX(double *y, const double *x, const double c, const ptrdiff_t n);
+void THDoubleVector_cadd_AVX(double *z, const double *x, const double *y, const double c, const ptrdiff_t n);
+void THDoubleVector_adds_AVX(double *y, const double *x, const double c, const ptrdiff_t n);
+void THFloatVector_copy_AVX(float *y, const float *x, const ptrdiff_t n);
+void THFloatVector_fill_AVX(float *x, const float c, const ptrdiff_t n);
+void THFloatVector_cdiv_AVX(float *z, const float *x, const float *y, const ptrdiff_t n);
+void THFloatVector_divs_AVX(float *y, const float *x, const float c, const ptrdiff_t n);
+void THFloatVector_cmul_AVX(float *z, const float *x, const float *y, const ptrdiff_t n);
+void THFloatVector_muls_AVX(float *y, const float *x, const float c, const ptrdiff_t n);
+void THFloatVector_cadd_AVX(float *z, const float *x, const float *y, const float c, const ptrdiff_t n);
+void THFloatVector_adds_AVX(float *y, const float *x, const float c, const ptrdiff_t n);
+
+#endif
diff --git a/vector/AVX2.c b/vector/AVX2.c
@@ -1,10 +1,12 @@
+#if defined(__AVX2__)
 #ifndef _MSC_VER
 #include <x86intrin.h>
 #else
 #include <intrin.h>
 #endif
+#include "AVX2.h"
 
-static void THDoubleVector_cadd_AVX2(double *z, const double *x, const double *y, const double c, const ptrdiff_t n) {
+void THDoubleVector_cadd_AVX2(double *z, const double *x, const double *y, const double c, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256d YMM15 = _mm256_set_pd(c, c, c, c);
   __m256d YMM0, YMM1, YMM2, YMM3;
@@ -23,7 +25,7 @@ static void THDoubleVector_cadd_AVX2(double *z, const double *x, const double *y
   }
 }
 
-static void THFloatVector_cadd_AVX2(float *z, const float *x, const float *y, const float c, const ptrdiff_t n) {
+void THFloatVector_cadd_AVX2(float *z, const float *x, const float *y, const float c, const ptrdiff_t n) {
   ptrdiff_t i;
   __m256 YMM15 = _mm256_set_ps(c, c, c, c, c, c, c, c);
   __m256 YMM0, YMM1, YMM2, YMM3;
@@ -42,3 +44,4 @@ static void THFloatVector_cadd_AVX2(float *z, const float *x, const float *y, co
   }
 }
 
+#endif // defined(__AVX2__)
diff --git a/vector/AVX2.h b/vector/AVX2.h
@@ -0,0 +1,9 @@
+#ifndef TH_AVX2_H
+#define TH_AVX2_H
+
+#include <stddef.h>
+
+void THDoubleVector_cadd_AVX2(double *z, const double *x, const double *y, const double c, const ptrdiff_t n);
+void THFloatVector_cadd_AVX2(float *z, const float *x, const float *y, const float c, const ptrdiff_t n);
+
+#endif

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-#if defined(USE_AVX)`
	`1`	`+#if defined(__AVX__)`
`2`	`2`
`3`	`3`	`#ifdef _MSC_VER`
`4`	`4`	`#include <intrin.h>`
`@@ -113,7 +113,7 @@ void convolve_5x5_sse(float* output, float* input, float* kernel, long outRows,`
`113`	`113`	`void convolve_5x5_avx(float* output, float* input, float* kernel, long outRows, long outCols, long outStride, long inCols);`
`114`	`114`
`115`	`115`	`void convolve_5x5(float* output, float* input, float* kernel, long outRows, long outCols, long inCols) {`
`116`		`-#if defined(USE_AVX)`
	`116`	`+#if defined(__AVX__)`
`117`	`117`	`int avx = haveCPUFeature(kCPUFeature_AVX);`
`118`	`118`	`if (avx)`
`119`	`119`	`{`
`@@ -124,4 +124,4 @@ void convolve_5x5(float* output, float* input, float* kernel, long outRows, long`
`124`	`124`	`{`
`125`	`125`	`convolve_5x5_sse(output, input, kernel, outRows, outCols, outCols, inCols);`
`126`	`126`	`}`
`127`		`-}`
	`127`	`+}`
Original file line number	Diff line number	Diff line change
`@@ -1,10 +1,13 @@`
	`1`	`+#if defined(__AVX__)`
`1`	`2`	`#ifndef _MSC_VER`
`2`	`3`	`#include <x86intrin.h>`
`3`	`4`	`#else`
`4`	`5`	`#include <intrin.h>`
`5`	`6`	`#endif`
`6`	`7`
`7`		`-static void THDoubleVector_copy_AVX(double y, const double x, const ptrdiff_t n) {`
	`8`	`+#include "AVX.h"`
	`9`	`+`
	`10`	`+void THDoubleVector_copy_AVX(double y, const double x, const ptrdiff_t n) {`
`8`	`11`	`ptrdiff_t i;`
`9`	`12`	`ptrdiff_t off;`
`10`	`13`	`for (i=0; i<=((n)-8); i+=8) {`
`@@ -17,7 +20,7 @@ static void THDoubleVector_copy_AVX(double y, const double x, const ptrdiff_t`
`17`	`20`	`}`
`18`	`21`	`}`
`19`	`22`
`20`		`-static void THDoubleVector_fill_AVX(double *x, const double c, const ptrdiff_t n) {`
	`23`	`+void THDoubleVector_fill_AVX(double *x, const double c, const ptrdiff_t n) {`
`21`	`24`	`ptrdiff_t i;`
`22`	`25`	`ptrdiff_t off;`
`23`	`26`	`__m256d YMM0 = _mm256_set_pd(c, c, c, c);`
`@@ -33,7 +36,7 @@ static void THDoubleVector_fill_AVX(double *x, const double c, const ptrdiff_t n`
`33`	`36`	`}`
`34`	`37`	`}`
`35`	`38`
`36`		`-static void THDoubleVector_cdiv_AVX(double z, const double x, const double *y, const ptrdiff_t n) {`
	`39`	`+void THDoubleVector_cdiv_AVX(double z, const double x, const double *y, const ptrdiff_t n) {`
`37`	`40`	`ptrdiff_t i;`
`38`	`41`	`__m256d YMM0, YMM1, YMM2, YMM3;`
`39`	`42`	`for (i=0; i<=((n)-8); i+=8) {`
`@@ -51,7 +54,7 @@ static void THDoubleVector_cdiv_AVX(double z, const double x, const double *y,`
`51`	`54`	`}`
`52`	`55`	`}`
`53`	`56`
`54`		`-static void THDoubleVector_divs_AVX(double y, const double x, const double c, const ptrdiff_t n) {`
	`57`	`+void THDoubleVector_divs_AVX(double y, const double x, const double c, const ptrdiff_t n) {`
`55`	`58`	`ptrdiff_t i;`
`56`	`59`	`__m256d YMM15 = _mm256_set_pd(c, c, c, c);`
`57`	`60`	`__m256d YMM0, YMM1;`
`@@ -68,7 +71,7 @@ static void THDoubleVector_divs_AVX(double y, const double x, const double c,`
`68`	`71`	`}`
`69`	`72`	`}`
`70`	`73`
`71`		`-static void THDoubleVector_cmul_AVX(double z, const double x, const double *y, const ptrdiff_t n) {`
	`74`	`+void THDoubleVector_cmul_AVX(double z, const double x, const double *y, const ptrdiff_t n) {`
`72`	`75`	`ptrdiff_t i;`
`73`	`76`	`__m256d YMM0, YMM1, YMM2, YMM3;`
`74`	`77`	`for (i=0; i<=((n)-8); i+=8) {`
`@@ -86,7 +89,7 @@ static void THDoubleVector_cmul_AVX(double z, const double x, const double *y,`
`86`	`89`	`}`
`87`	`90`	`}`
`88`	`91`
`89`		`-static void THDoubleVector_muls_AVX(double y, const double x, const double c, const ptrdiff_t n) {`
	`92`	`+void THDoubleVector_muls_AVX(double y, const double x, const double c, const ptrdiff_t n) {`
`90`	`93`	`ptrdiff_t i;`
`91`	`94`	`__m256d YMM15 = _mm256_set_pd(c, c, c, c);`
`92`	`95`	`__m256d YMM0, YMM1;`
`@@ -103,7 +106,7 @@ static void THDoubleVector_muls_AVX(double y, const double x, const double c,`
`103`	`106`	`}`
`104`	`107`	`}`
`105`	`108`
`106`		`-static void THDoubleVector_cadd_AVX(double z, const double x, const double *y, const double c, const ptrdiff_t n) {`
	`109`	`+void THDoubleVector_cadd_AVX(double z, const double x, const double *y, const double c, const ptrdiff_t n) {`
`107`	`110`	`ptrdiff_t i;`
`108`	`111`	`__m256d YMM15 = _mm256_set_pd(c, c, c, c);`
`109`	`112`	`__m256d YMM0, YMM1, YMM2, YMM3;`
`@@ -119,7 +122,7 @@ static void THDoubleVector_cadd_AVX(double z, const double x, const double *y,`
`119`	`122`	`}`
`120`	`123`	`}`
`121`	`124`
`122`		`-static void THDoubleVector_adds_AVX(double y, const double x, const double c, const ptrdiff_t n) {`
	`125`	`+void THDoubleVector_adds_AVX(double y, const double x, const double c, const ptrdiff_t n) {`
`123`	`126`	`ptrdiff_t i;`
`124`	`127`	`__m256d YMM15 = _mm256_set_pd(c, c, c, c);`
`125`	`128`	`__m256d YMM0, YMM1;`
`@@ -136,7 +139,7 @@ static void THDoubleVector_adds_AVX(double y, const double x, const double c,`
`136`	`139`	`}`
`137`	`140`	`}`
`138`	`141`
`139`		`-static void THFloatVector_copy_AVX(float y, const float x, const ptrdiff_t n) {`
	`142`	`+void THFloatVector_copy_AVX(float y, const float x, const ptrdiff_t n) {`
`140`	`143`	`ptrdiff_t i;`
`141`	`144`	`ptrdiff_t off;`
`142`	`145`	`for (i=0; i<=((n)-16); i+=16) {`
`@@ -149,7 +152,7 @@ static void THFloatVector_copy_AVX(float y, const float x, const ptrdiff_t n)`
`149`	`152`	`}`
`150`	`153`	`}`
`151`	`154`
`152`		`-static void THFloatVector_fill_AVX(float *x, const float c, const ptrdiff_t n) {`
	`155`	`+void THFloatVector_fill_AVX(float *x, const float c, const ptrdiff_t n) {`
`153`	`156`	`ptrdiff_t i;`
`154`	`157`	`ptrdiff_t off;`
`155`	`158`	`__m256 YMM0 = _mm256_set_ps(c, c, c, c, c, c, c, c);`
`@@ -165,7 +168,7 @@ static void THFloatVector_fill_AVX(float *x, const float c, const ptrdiff_t n) {`
`165`	`168`	`}`
`166`	`169`	`}`
`167`	`170`
`168`		`-static void THFloatVector_cdiv_AVX(float z, const float x, const float *y, const ptrdiff_t n) {`
	`171`	`+void THFloatVector_cdiv_AVX(float z, const float x, const float *y, const ptrdiff_t n) {`
`169`	`172`	`ptrdiff_t i;`
`170`	`173`	`__m256 YMM0, YMM1, YMM2, YMM3;`
`171`	`174`	`for (i=0; i<=((n)-16); i+=16) {`
`@@ -183,7 +186,7 @@ static void THFloatVector_cdiv_AVX(float z, const float x, const float *y, con`
`183`	`186`	`}`
`184`	`187`	`}`
`185`	`188`
`186`		`-static void THFloatVector_divs_AVX(float y, const float x, const float c, const ptrdiff_t n) {`
	`189`	`+void THFloatVector_divs_AVX(float y, const float x, const float c, const ptrdiff_t n) {`
`187`	`190`	`ptrdiff_t i;`
`188`	`191`	`__m256 YMM15 = _mm256_set_ps(c, c, c, c, c, c, c, c);`
`189`	`192`	`__m256 YMM0, YMM1;`
`@@ -200,7 +203,7 @@ static void THFloatVector_divs_AVX(float y, const float x, const float c, cons`
`200`	`203`	`}`
`201`	`204`	`}`
`202`	`205`
`203`		`-static void THFloatVector_cmul_AVX(float z, const float x, const float *y, const ptrdiff_t n) {`
	`206`	`+void THFloatVector_cmul_AVX(float z, const float x, const float *y, const ptrdiff_t n) {`
`204`	`207`	`ptrdiff_t i;`
`205`	`208`	`__m256 YMM0, YMM1, YMM2, YMM3;`
`206`	`209`	`for (i=0; i<=((n)-16); i+=16) {`
`@@ -218,7 +221,7 @@ static void THFloatVector_cmul_AVX(float z, const float x, const float *y, con`
`218`	`221`	`}`
`219`	`222`	`}`
`220`	`223`
`221`		`-static void THFloatVector_muls_AVX(float y, const float x, const float c, const ptrdiff_t n) {`
	`224`	`+void THFloatVector_muls_AVX(float y, const float x, const float c, const ptrdiff_t n) {`
`222`	`225`	`ptrdiff_t i;`
`223`	`226`	`__m256 YMM15 = _mm256_set_ps(c, c, c, c, c, c, c, c);`
`224`	`227`	`__m256 YMM0, YMM1;`
`@@ -235,7 +238,7 @@ static void THFloatVector_muls_AVX(float y, const float x, const float c, cons`
`235`	`238`	`}`
`236`	`239`	`}`
`237`	`240`
`238`		`-static void THFloatVector_cadd_AVX(float z, const float x, const float *y, const float c, const ptrdiff_t n) {`
	`241`	`+void THFloatVector_cadd_AVX(float z, const float x, const float *y, const float c, const ptrdiff_t n) {`
`239`	`242`	`ptrdiff_t i;`
`240`	`243`	`__m256 YMM15 = _mm256_set_ps(c, c, c, c, c, c, c, c);`
`241`	`244`	`__m256 YMM0, YMM1, YMM2, YMM3;`
`@@ -251,7 +254,7 @@ static void THFloatVector_cadd_AVX(float z, const float x, const float *y, con`
`251`	`254`	`}`
`252`	`255`	`}`
`253`	`256`
`254`		`-static void THFloatVector_adds_AVX(float y, const float x, const float c, const ptrdiff_t n) {`
	`257`	`+void THFloatVector_adds_AVX(float y, const float x, const float c, const ptrdiff_t n) {`
`255`	`258`	`ptrdiff_t i;`
`256`	`259`	`__m256 YMM15 = _mm256_set_ps(c, c, c, c, c, c, c, c);`
`257`	`260`	`__m256 YMM0, YMM1;`
`@@ -267,3 +270,5 @@ static void THFloatVector_adds_AVX(float y, const float x, const float c, cons`
`267`	`270`	`y[i] = x[i] + c;`
`268`	`271`	`}`
`269`	`272`	`}`
	`273`	`+`
	`274`	`+#endif // defined(__AVX__)`
Original file line number	Diff line number	Diff line change
`@@ -1,10 +1,12 @@`
	`1`	`+#if defined(__AVX2__)`
`1`	`2`	`#ifndef _MSC_VER`
`2`	`3`	`#include <x86intrin.h>`
`3`	`4`	`#else`
`4`	`5`	`#include <intrin.h>`
`5`	`6`	`#endif`
	`7`	`+#include "AVX2.h"`
`6`	`8`
`7`		`-static void THDoubleVector_cadd_AVX2(double z, const double x, const double *y, const double c, const ptrdiff_t n) {`
	`9`	`+void THDoubleVector_cadd_AVX2(double z, const double x, const double *y, const double c, const ptrdiff_t n) {`
`8`	`10`	`ptrdiff_t i;`
`9`	`11`	`__m256d YMM15 = _mm256_set_pd(c, c, c, c);`
`10`	`12`	`__m256d YMM0, YMM1, YMM2, YMM3;`
`@@ -23,7 +25,7 @@ static void THDoubleVector_cadd_AVX2(double z, const double x, const double *y`
`23`	`25`	`}`
`24`	`26`	`}`
`25`	`27`
`26`		`-static void THFloatVector_cadd_AVX2(float z, const float x, const float *y, const float c, const ptrdiff_t n) {`
	`28`	`+void THFloatVector_cadd_AVX2(float z, const float x, const float *y, const float c, const ptrdiff_t n) {`
`27`	`29`	`ptrdiff_t i;`
`28`	`30`	`__m256 YMM15 = _mm256_set_ps(c, c, c, c, c, c, c, c);`
`29`	`31`	`__m256 YMM0, YMM1, YMM2, YMM3;`
`@@ -42,3 +44,4 @@ static void THFloatVector_cadd_AVX2(float z, const float x, const float *y, co`
`42`	`44`	`}`
`43`	`45`	`}`
`44`	`46`
	`47`	`+#endif // defined(__AVX2__)`