Add haskell bindings

junjihashimoto · junjihashimoto · commit 3228b1b432a1 · 2024-12-28T15:54:30.000+09:00
diff --git a/bindings/haskell/CHANGELOG.md b/bindings/haskell/CHANGELOG.md
@@ -0,0 +1,5 @@
+# Revision history for gpu-cpp
+
+## 0.1.0.0 -- 2024-12-28
+
+* First version.
diff --git a/bindings/haskell/Makefile b/bindings/haskell/Makefile
@@ -0,0 +1,3 @@
+all:
+	cabal configure --extra-include-dirs=$(PWD)/../.. --extra-include-dirs=$(PWD)/../../third_party/headers --extra-lib-dirs=$(PWD)/../../third_party/lib
+	cabal build .
diff --git a/bindings/haskell/app/Main.hs b/bindings/haskell/app/Main.hs
@@ -0,0 +1,37 @@
+module Main where
+
+import GpuCpp.Types
+import GpuCpp
+import qualified Data.Vector.Storable as V
+import Foreign.C.Types
+
+main :: IO ()
+main = do
+  context <- createContext
+  input <- createTensor context [12] kf32
+  output <- createTensor context [12] kf32
+  kernelCode <- createKernelCode
+    (
+    "const GELU_SCALING_FACTOR: f32 = 0.7978845608028654; // sqrt(2.0 / PI)\n" <>
+    "@group(0) @binding(0) var<storage, read_write> inp: array<{{precision}}>;\n" <>
+    "@group(0) @binding(1) var<storage, read_write> out: array<{{precision}}>;\n" <>
+    "@group(0) @binding(1) var<storage, read_write> dummy: array<{{precision}}>;\n" <>
+    "@compute @workgroup_size({{workgroupSize}})\n" <>
+    "fn main(\n" <>
+    "    @builtin(global_invocation_id) GlobalInvocationID: vec3<u32>) {\n" <>
+    "    let i: u32 = GlobalInvocationID.x;\n" <>
+    "    if (i < arrayLength(&inp)) {\n" <>
+    "        let x: f32 = inp[i];\n" <>
+    "        out[i] = select(0.5 * x * (1.0 + tanh(GELU_SCALING_FACTOR \n" <>
+    "                 * (x + .044715 * x * x * x))), x, x > 10.0);\n" <>
+    "    }\n" <>
+    "}\n"
+    )
+    256
+    kf32
+  kernel <- createKernel context kernelCode [input, output] [0,0] [12,1,1]
+  toGpu context (V.fromList [1 :: CFloat,2,3,4,1,2,3,4,1,2,3,4]) input
+  async <- dispatchKernel context kernel
+  wait context async
+  vec <- toCpu context output :: IO (V.Vector CFloat)
+  print vec
diff --git a/bindings/haskell/gpu-cpp.cabal b/bindings/haskell/gpu-cpp.cabal
@@ -0,0 +1,49 @@
+cabal-version:      3.0
+name:               gpu-cpp
+version:            0.1.0.0
+license:            BSD-3-Clause
+author:             Junji Hashimoto
+maintainer:         junji.hashimoto@gmail.com
+category:           Math
+build-type:         Simple
+
+extra-doc-files:    CHANGELOG.md
+
+common warnings
+    ghc-options: -Wall
+
+library
+    import:           warnings
+    exposed-modules:  GpuCpp
+                    , GpuCpp.Types
+    build-depends:    base ^>=4.18.1.0
+                    , inline-c
+                    , inline-c-cpp
+                    , containers
+                    , template-haskell
+                    , safe-exceptions
+                    , vector
+    hs-source-dirs:   src
+    default-language: Haskell2010
+    ghc-options:      -optcxx-std=c++17
+    extra-libraries:  dawn
+
+executable gpu-cpp
+    import:           warnings
+    main-is:          Main.hs
+    build-depends:    base ^>=4.18.1.0
+                    , gpu-cpp
+                    , vector
+    hs-source-dirs:   app
+    default-language: Haskell2010
+
+test-suite gpu-cpp-test
+    import:           warnings
+    default-language: Haskell2010
+    type:             exitcode-stdio-1.0
+    hs-source-dirs:   test
+    main-is:          Main.hs
+    build-depends:    base ^>=4.18.1.0
+                    , gpu-cpp
+                    , vector
+                    , hspec
diff --git a/bindings/haskell/src/GpuCpp.hs b/bindings/haskell/src/GpuCpp.hs
@@ -0,0 +1,207 @@
+{-# LANGUAGE DataKinds #-}
+{-# LANGUAGE PolyKinds #-}
+{-# LANGUAGE TemplateHaskell #-}
+{-# LANGUAGE QuasiQuotes #-}
+{-# LANGUAGE OverloadedStrings #-}
+{-# LANGUAGE ScopedTypeVariables #-}
+{-# LANGUAGE TypeApplications #-}
+{-# LANGUAGE MultiParamTypeClasses #-}
+{-# LANGUAGE FlexibleInstances #-}
+
+module GpuCpp where
+
+import qualified Language.C.Inline.Cpp as C
+import qualified Language.C.Inline.Cpp.Unsafe as C
+import qualified Language.C.Inline.Context as C
+import Foreign.C.String
+import Foreign.C.Types
+import GHC.Int
+import GHC.ForeignPtr(mallocPlainForeignPtrBytes)
+import Foreign
+import Control.Monad (forM_)
+import GpuCpp.Types
+import Control.Exception.Safe (bracket)
+import qualified Data.Vector.Storable as V
+
+C.context $ C.cppCtx <> mempty { C.ctxTypesTable = typeTable }
+
+C.include "<gpu.hpp>"
+C.include "<future>"
+C.include "<vector>"
+
+[C.emitBlock|
+struct GpuAsync {
+  std::promise<void> promise;
+  std::future<void> future;
+  GpuAsync(): future(promise.get_future()){
+  }
+};
+
+gpu::Shape vector_to_shape(const std::vector<int64_t> &dims) {
+  switch(dims.size()){
+  case 1:
+    return gpu::Shape{(unsigned long)dims[0]};
+    break;
+  case 2:
+    return gpu::Shape{(unsigned long)dims[0],(unsigned long)dims[1]};
+    break;
+  case 3:
+    return gpu::Shape{(unsigned long)dims[0],(unsigned long)dims[1],(unsigned long)dims[2]};
+    break;
+  case 4:
+    return gpu::Shape{(unsigned long)dims[0],(unsigned long)dims[1],(unsigned long)dims[2],(unsigned long)dims[3]};
+    break;
+  case 5:
+    return gpu::Shape{(unsigned long)dims[0],(unsigned long)dims[1],(unsigned long)dims[2],(unsigned long)dims[3],(unsigned long)dims[4]};
+    break;
+  }
+  return gpu::Shape{0};
+}
+|]
+
+kf32 :: CInt
+kf32 = [C.pure| int { (int)gpu::kf32 } |]
+
+createContext :: IO (ForeignPtr Context)
+createContext =
+  [C.throwBlock| gpu::Context* { return new gpu::Context(gpu::createContext()); }|] >>=
+  newForeignPtr
+    [C.funPtr| void deleteContext(gpu::Context* ptr) { delete ptr; }|]
+
+
+createKernelCode :: String -> CInt -> CInt -> IO (ForeignPtr KernelCode)
+createKernelCode kernelString workgroupSize precision =
+  withCString kernelString $ \pData ->
+    [C.throwBlock| gpu::KernelCode* { return new gpu::KernelCode($(char* pData), $(int workgroupSize), (gpu::NumType)$(int precision)); }|] >>=
+    newForeignPtr
+      [C.funPtr| void deleteKernelCode(gpu::KernelCode* ptr) { delete ptr; }|]
+
+
+dispatchKernel :: ForeignPtr Context -> ForeignPtr Kernel -> IO (ForeignPtr GpuAsync)
+dispatchKernel context kernel =
+  withForeignPtr context $ \c -> 
+  withForeignPtr kernel $ \k ->
+    [C.throwBlock| GpuAsync* {
+      auto async = new GpuAsync();
+      gpu::dispatchKernel(*$(gpu::Context* c), *$(gpu::Kernel* k), async->promise);
+      return async; }|] >>=
+    newForeignPtr
+      [C.funPtr| void deleteGpuAsync(GpuAsync* ptr) { delete ptr; }|]
+  
+wait :: ForeignPtr Context -> ForeignPtr GpuAsync -> IO ()
+wait context async =
+  withForeignPtr context $ \c -> 
+  withForeignPtr async $ \a ->
+    [C.throwBlock| void {
+      gpu::wait(*$(gpu::Context* c), $(GpuAsync* a)->future);
+    }|]
+
+instance WithVector CInt Int64 where
+  withVector shape func =
+    bracket
+      (do
+         let len = fromIntegral $ length shape
+         vec <- [C.throwBlock| std::vector<int64_t>* {
+           return new std::vector<int64_t>($(int len));
+         }|]
+         ptr <- [C.throwBlock| int64_t* {
+           return $(std::vector<int64_t>* vec)->data();
+         }|]
+         pokeArray ptr (map fromIntegral shape)
+         return vec
+      ) 
+      (\vec -> [C.block| void { delete $(std::vector<int64_t>* vec); }|])
+      (\vec -> func vec)
+
+instance WithVector CInt CSize where
+  withVector shape func =
+    bracket
+      (do
+         let len = fromIntegral $ length shape
+         vec <- [C.throwBlock| std::vector<size_t>* {
+           return new std::vector<size_t>($(int len));
+         }|]
+         ptr <- [C.throwBlock| size_t* {
+           return $(std::vector<size_t>* vec)->data();
+         }|]
+         pokeArray ptr (map fromIntegral shape)
+         return vec
+      ) 
+      (\vec -> [C.block| void { delete $(std::vector<size_t>* vec); }|])
+      (\vec -> func vec)
+
+instance WithVector (Ptr Tensor) Tensor where
+  withVector ptrs func = 
+    bracket (do
+                vec <- [C.throwBlock| std::vector<gpu::Tensor>* { return new std::vector<gpu::Tensor>(); }|]
+                forM_ ptrs $ do
+                  \ptr -> [C.throwBlock| void { $(std::vector<gpu::Tensor>* vec)->push_back(*$(gpu::Tensor* ptr)); }|]
+                return vec
+            )
+            (\vec -> [C.block| void { delete $(std::vector<gpu::Tensor>* vec); }|])
+            (\vec -> func vec)
+
+withForeignPtrs :: [ForeignPtr a] -> ([Ptr a] -> IO b) -> IO b
+withForeignPtrs [] func = func []
+withForeignPtrs (x:xs) func =
+  withForeignPtr x $ \x' ->
+    withForeignPtrs xs $ \xs' ->
+      func (x':xs')
+
+createKernel :: ForeignPtr Context -> ForeignPtr KernelCode -> [ForeignPtr Tensor] -> [Int] -> [Int] -> IO (ForeignPtr Kernel)
+createKernel context kernelCode dataBindings viewOffsets totalWorkgroups =
+  withForeignPtr context $ \c -> 
+  withForeignPtr kernelCode $ \k -> 
+  withForeignPtrs dataBindings $ \b ->
+  withVector b $ \b' ->
+  withVector @CInt (map fromIntegral viewOffsets) $ \v ->
+  withVector @CInt (map fromIntegral totalWorkgroups) $ \w ->
+    [C.throwBlock| gpu::Kernel* {
+      return new gpu::Kernel(gpu::createKernel(
+                   *$(gpu::Context* c),
+                   *$(gpu::KernelCode* k),
+                   $(std::vector<gpu::Tensor>* b')->data(),
+                   $(std::vector<gpu::Tensor>* b')->size(),
+                   $(std::vector<size_t>* v)->data(),
+                   vector_to_shape(*$(std::vector<int64_t>* w))));
+    }|] >>=
+    newForeignPtr
+      [C.funPtr| void deleteKernel(gpu::Kernel* ptr) { delete ptr; }|]
+  
+createTensor :: ForeignPtr Context -> [CInt] -> CInt -> IO (ForeignPtr Tensor)
+createTensor context shape dtype =
+  withVector shape $ \s ->
+  withForeignPtr context $ \c -> 
+    [C.throwBlock| gpu::Tensor* {
+      return new gpu::Tensor(gpu::createTensor(*$(gpu::Context* c), vector_to_shape(*$(std::vector<int64_t>* s)), (gpu::NumType)$(int dtype)));
+    }|] >>=
+    newForeignPtr
+      [C.funPtr| void deleteTensor(gpu::Tensor* ptr) { delete ptr; }|]
+
+createVector :: forall a. Storable a => Int -> IO (V.Vector a)
+createVector n = do
+  ptr <- mallocPlainForeignPtrBytes (n * sizeOf (undefined :: a))
+  return $ V.unsafeFromForeignPtr ptr 0 n    
+        
+instance GpuStorable CFloat where
+  toGpu context array tensor =
+    withForeignPtr context $ \c -> 
+    withForeignPtr tensor $ \t ->
+    V.unsafeWith array $ \ptr ->
+      [C.throwBlock| void {
+        gpu::toGPU(*$(gpu::Context* c), $(float* ptr), *$(gpu::Tensor* t));
+      }|]
+  toCpu context tensor =
+    withForeignPtr context $ \c -> 
+    withForeignPtr tensor $ \t -> do
+      (size :: CInt) <- [C.block| int {
+                                size_t u = sizeof(float);
+                                size_t len = $(gpu::Tensor* t)->data.size;
+                                return len/u;
+                        }|]
+      array <- createVector (fromIntegral size)
+      V.unsafeWith array $ \ptr ->
+        [C.throwBlock| void {
+          gpu::toCPU(*$(gpu::Context* c), *$(gpu::Tensor* t), $(float* ptr), $(int size) * sizeof(float));
+        }|]
+      return array
diff --git a/bindings/haskell/src/GpuCpp/Types.hs b/bindings/haskell/src/GpuCpp/Types.hs
@@ -0,0 +1,40 @@
+{-# LANGUAGE DataKinds #-}
+{-# LANGUAGE PolyKinds #-}
+{-# LANGUAGE TemplateHaskell #-}
+{-# LANGUAGE QuasiQuotes #-}
+{-# LANGUAGE OverloadedStrings #-}
+{-# LANGUAGE MultiParamTypeClasses #-}
+
+module GpuCpp.Types where
+
+import qualified Language.C.Types as C
+import qualified Language.Haskell.TH.Lib as TH
+import qualified Data.Map as Map
+import Foreign
+import qualified Data.Vector.Storable as V
+
+data Context
+data Tensor
+data Kernel
+data KernelCode
+data GpuAsync
+data StdVector a
+ 
+typeTable :: Map.Map C.TypeSpecifier TH.TypeQ
+typeTable = Map.fromList [
+        (C.TypeName "gpu::Context", [t|Context|])
+      , (C.TypeName "gpu::Tensor", [t|Tensor|])
+      , (C.TypeName "gpu::Kernel", [t|Kernel|])
+      , (C.TypeName "gpu::KernelCode", [t|KernelCode|])
+      , (C.TypeName "GpuAsync", [t|GpuAsync|])
+      , (C.TypeName "std::vector", [t|StdVector|])
+    ]
+
+
+class WithVector a b where
+  withVector :: [a] -> (Ptr (StdVector b) -> IO c) -> IO c
+  
+class GpuStorable a where
+  toGpu :: ForeignPtr Context -> V.Vector a -> ForeignPtr Tensor -> IO ()
+  toCpu :: ForeignPtr Context -> ForeignPtr Tensor -> IO (V.Vector a)
+
diff --git a/bindings/haskell/test/Main.hs b/bindings/haskell/test/Main.hs
@@ -0,0 +1,49 @@
+module Main (main) where
+
+import Test.Hspec
+import GpuCpp.Types
+import GpuCpp
+import qualified Data.Vector.Storable as V
+import Foreign.C.Types
+
+gelu :: String
+gelu= "const GELU_SCALING_FACTOR: f32 = 0.7978845608028654; // sqrt(2.0 / PI)\n" <>
+      "@group(0) @binding(0) var<storage, read_write> inp: array<{{precision}}>;\n" <>
+      "@group(0) @binding(1) var<storage, read_write> out: array<{{precision}}>;\n" <>
+      "@group(0) @binding(1) var<storage, read_write> dummy: array<{{precision}}>;\n" <>
+      "@compute @workgroup_size({{workgroupSize}})\n" <>
+      "fn main(\n" <>
+      "    @builtin(global_invocation_id) GlobalInvocationID: vec3<u32>) {\n" <>
+      "    let i: u32 = GlobalInvocationID.x;\n" <>
+      "    if (i < arrayLength(&inp)) {\n" <>
+      "        let x: f32 = inp[i];\n" <>
+      "        out[i] = select(0.5 * x * (1.0 + tanh(GELU_SCALING_FACTOR \n" <>
+      "                 * (x + .044715 * x * x * x))), x, x > 10.0);\n" <>
+      "    }\n" <>
+      "}\n"
+
+main :: IO ()
+main = do
+  hspec $ do
+    describe "toCPU and toGPU" $ do
+      it "writes and reads back" $ do
+        context <- createContext
+        input <- createTensor context [12] kf32
+        toGpu context (V.fromList [1 :: CFloat,2,3,4,1,2,3,4,1,2,3,4]) input
+        output <- toCpu context input :: IO (V.Vector CFloat)
+        V.toList output `shouldBe` [1,2,3,4,1,2,3,4,1,2,3,4]
+    describe "call kernel" $ do
+      it "gelu" $ do
+        context <- createContext
+        input <- createTensor context [12] kf32
+        output <- createTensor context [12] kf32
+        kernelCode <- createKernelCode gelu 256 kf32
+        kernel <- createKernel context kernelCode [input, output] [0,0] [12,1,1]
+        toGpu context (V.fromList [1 :: CFloat,2,3,4,1,2,3,4,1,2,3,4]) input
+        async <- dispatchKernel context kernel
+        wait context async
+        vec <- toCpu context output :: IO (V.Vector CFloat)
+        V.toList (V.zipWith (\a b -> abs (a - b))
+                  vec
+                  (V.fromList [0.841192,1.9545977,2.9963627,3.9999297,0.841192,1.9545977,2.9963627,3.9999297,0.841192,1.9545977,2.9963627,3.9999297]))
+          `shouldSatisfy` all (< 0.001)
diff --git a/bindings/python/gpu_cpp.cpp b/bindings/python/gpu_cpp.cpp

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+all:`
	`2`	`+ cabal configure --extra-include-dirs=$(PWD)/../.. --extra-include-dirs=$(PWD)/../../third_party/headers --extra-lib-dirs=$(PWD)/../../third_party/lib`
	`3`	`+ cabal build .`