Add support for non square matrices

2025-11-06 01:34:22 +00:00 · 2024-05-20 15:20:43 +02:00
parent 6f8b5f4081
commit 74098b24e3
21 changed files with 314 additions and 299 deletions
--- a/src/kernels/pooling.cu
+++ b/src/kernels/pooling.cu
@@ -1,4 +1,5 @@
 #include "cuda_helper.cuh"
+#include "layer.cuh"
 #include "pooling.cuh"

 using namespace CUDANet;
@@ -6,26 +7,27 @@ using namespace CUDANet;
 __global__ void Kernels::max_pooling(
    const float* __restrict__ d_input,
    float* __restrict__ d_output,
-    const int inputSize,
-    const int outputSize,
-    const int nChannels,
-    const int poolingSize,
-    const int stride
+    const dim2d inputSize,
+    const dim2d outputSize,
+    const int   nChannels,
+    const dim2d poolingSize,
+    const dim2d stride
 ) {
    int j = blockDim.x * blockIdx.x + threadIdx.x;
    int i = blockDim.y * blockIdx.y + threadIdx.y;
    int c = blockDim.z * blockIdx.z + threadIdx.z;

-    if (i >= outputSize || j >= outputSize || c >= nChannels) {
+    if (i >= outputSize.first || j >= outputSize.second || c >= nChannels) {
        return;
    }

    float max = 0.0f;

-    for (int k = 0; k < poolingSize; k++) {
-        for (int l = 0; l < poolingSize; l++) {
-            int inputIndex = c * inputSize * inputSize +
-                             (i * stride + k) * inputSize + (j * stride + l);
+    for (int k = 0; k < poolingSize.first; k++) {
+        for (int l = 0; l < poolingSize.second; l++) {
+            int inputIndex = c * inputSize.first * inputSize.second +
+                             (i * stride.first + k) * inputSize.second +
+                             (j * stride.second + l);

            if (d_input[inputIndex] > max) {
                max = d_input[inputIndex];
@@ -33,37 +35,41 @@ __global__ void Kernels::max_pooling(
        }
    }

-    d_output[c * outputSize * outputSize + i * outputSize + j] = max;
+    d_output
+        [c * outputSize.first * outputSize.second + i * outputSize.second + j] =
+            max;
 }

 __global__ void Kernels::avg_pooling(
    const float* __restrict__ d_input,
    float* __restrict__ d_output,
-    const int inputSize,
-    const int outputSize,
-    const int nChannels,
-    const int poolingSize,
-    const int stride
+    const dim2d inputSize,
+    const dim2d outputSize,
+    const int   nChannels,
+    const dim2d poolingSize,
+    const dim2d stride
 ) {
    int j = blockDim.x * blockIdx.x + threadIdx.x;
    int i = blockDim.y * blockIdx.y + threadIdx.y;
    int c = blockDim.z * blockIdx.z + threadIdx.z;

-    if (i >= outputSize || j >= outputSize || c >= outputSize) {
+    if (i >= outputSize.first || j >= outputSize.second || c >= nChannels) {
        return;
    }

    float sum = 0.0f;

-    for (int k = 0; k < poolingSize; k++) {
-        for (int l = 0; l < poolingSize; l++) {
-            int inputIndex = c * inputSize * inputSize +
-                             (i * stride + k) * inputSize + (j * stride + l);
+    for (int k = 0; k < poolingSize.first; k++) {
+        for (int l = 0; l < poolingSize.second; l++) {
+            int inputIndex = c * inputSize.first * inputSize.second +
+                             (i * stride.first + k) * inputSize.second +
+                             (j * stride.second + l);

            sum += d_input[inputIndex];
        }
    }

-    d_output[c * outputSize * outputSize + i * outputSize + j] =
-        sum / (poolingSize * poolingSize);
+    d_output
+        [c * outputSize.first * outputSize.second + i * outputSize.second + j] =
+            sum / (poolingSize.first * poolingSize.second);
 }