Restructure cuda backend

2025-12-22 14:24:22 +00:00 · 2024-09-05 22:23:47 +02:00
parent 65727dfee8
commit f8220f0ec1
19 changed files with 69 additions and 16 deletions
--- a/src/backends/cuda/kernels/activation_functions.cu
+++ b/src/backends/cuda/kernels/activation_functions.cu
--- a/src/backends/cuda/kernels/convolution.cu
+++ b/src/backends/cuda/kernels/convolution.cu
--- a/src/backends/cuda/kernels/matmul.cu
+++ b/src/backends/cuda/kernels/matmul.cu
--- a/src/backends/cuda/kernels/pooling.cu
+++ b/src/backends/cuda/kernels/pooling.cu
--- a/src/backends/cuda/layers/add.cu
+++ b/src/backends/cuda/layers/add.cu
@@ -1,26 +1,21 @@
-#include "add.cuh"
+#include "add.hpp"
 #include "matmul.cuh"
 #include "cuda_helper.cuh"

 using namespace CUDANet::Layers;

-
-Add::Add(int inputSize)
-    : inputSize(inputSize) {
-
+void Add::initCUDA() {
    d_output = nullptr;
    CUDA_CHECK(cudaMalloc((void**)&d_output, sizeof(float) * inputSize));

    gridSize = (inputSize + BLOCK_SIZE - 1) / BLOCK_SIZE;
 }

-
-Add::~Add() {
+void Add::delCUDA() {
    cudaFree(d_output);
 }

-
-void Add::forward(const float* d_inputA, const float* d_inputB) {
+float* Add::forwardCUDA(const float* d_inputA, const float* d_inputB) {

    Kernels::vec_vec_add<<<gridSize, BLOCK_SIZE>>>(
        d_inputA, d_inputB, d_output, inputSize
@@ -28,4 +23,6 @@ void Add::forward(const float* d_inputA, const float* d_inputB) {
    CUDA_CHECK(cudaGetLastError());
    CUDA_CHECK(cudaDeviceSynchronize());

-}
+    return d_output;
+
+}
--- a/src/backends/cuda/utils/cuda_helper.cu
+++ b/src/backends/cuda/utils/cuda_helper.cu
--- a/src/backends/cuda/utils/vector.cu
+++ b/src/backends/cuda/utils/vector.cu
--- a/src/cuda/layers/activation.cu
+++ b/src/cuda/layers/activation.cu
--- a/src/layers/add.cpp
+++ b/src/layers/add.cpp
@@ -0,0 +1,44 @@
+#include "add.hpp"
+
+#include <stddef.h>
+
+using namespace CUDANet::Layers;
+
+
+Add::Add(int inputSize)
+    : inputSize(inputSize) {
+
+    output = new float[inputSize];
+
+#ifdef USE_CUDA
+    initCUDA();
+#endif
+    
+}
+
+
+Add::~Add() {
+#ifdef USE_CUDA
+    delCUDA();
+#endif
+}
+
+
+float* Add::forward(const float* inputA, const float* inputB) {
+
+#ifdef USE_CUDA
+    return forwardCUDA(inputA, inputB);
+#else
+    return forwardCPU(inputA, inputB);
+#endif
+
+}
+
+float* Add::forwardCPU(const float* inputA, const float* inputB) {
+    for (size_t i = 0; i < inputSize; i++)
+    {
+        output[i] = inputA[i] + inputB[i];
+    }
+
+    return output;    
+}
--- a/src/cuda/layers/avg_pooling.cu
+++ b/src/cuda/layers/avg_pooling.cu
--- a/src/cuda/layers/batch_norm.cu
+++ b/src/cuda/layers/batch_norm.cu
--- a/src/cuda/layers/concat.cu
+++ b/src/cuda/layers/concat.cu
--- a/src/cuda/layers/conv2d.cu
+++ b/src/cuda/layers/conv2d.cu
--- a/src/cuda/layers/dense.cu
+++ b/src/cuda/layers/dense.cu
--- a/src/cuda/layers/input.cu
+++ b/src/cuda/layers/input.cu
--- a/src/cuda/layers/max_pooling.cu
+++ b/src/cuda/layers/max_pooling.cu
--- a/src/cuda/layers/output.cu
+++ b/src/cuda/layers/output.cu