PASSIONLab
diff --git a/‎openequivariance/openequivariance/_torch/NPDoubleBackwardMixin.py‎
Lines changed: 78 additions & 20 deletions b/‎openequivariance/openequivariance/_torch/NPDoubleBackwardMixin.py‎
Lines changed: 78 additions & 20 deletions
diff --git a/‎openequivariance/openequivariance/_torch/TensorProduct.py‎
Lines changed: 51 additions & 16 deletions b/‎openequivariance/openequivariance/_torch/TensorProduct.py‎
Lines changed: 51 additions & 16 deletions
diff --git a/‎openequivariance/openequivariance/core/ComputationSchedule.py‎
Lines changed: 26 additions & 19 deletions b/‎openequivariance/openequivariance/core/ComputationSchedule.py‎
Lines changed: 26 additions & 19 deletions
@@ -1,5 +1,7 @@
 import torch
 
+from openequivariance.core.utils import IrrepLayoutUtils
+
 
 class NumpyDoubleBackwardMixin:
     """
@@ -13,12 +15,30 @@ def double_backward_cpu(
     ):
         assert self.torch_op
 
-        in1_torch = torch.tensor(in1).to("cuda").requires_grad_(True)
-        in2_torch = torch.tensor(in2).to("cuda").requires_grad_(True)
+        layout = self.config.layout
+
+        in1_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            in1, self.config.irreps_in1, layout, "mul_ir"
+        )
+        in2_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            in2, self.config.irreps_in2, layout, "mul_ir"
+        )
+        out_grad_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            out_grad, self.config.irreps_out, layout, "mul_ir"
+        )
+        in1_dgrad_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            in1_dgrad, self.config.irreps_in1, layout, "mul_ir"
+        )
+        in2_dgrad_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            in2_dgrad, self.config.irreps_in2, layout, "mul_ir"
+        )
+
+        in1_torch = torch.tensor(in1_kernel).to("cuda").requires_grad_(True)
+        in2_torch = torch.tensor(in2_kernel).to("cuda").requires_grad_(True)
         weights_torch = torch.tensor(weights).to("cuda").requires_grad_(True)
-        out_grad_torch = torch.tensor(out_grad).to("cuda").requires_grad_(True)
-        in1_dgrad_torch = torch.tensor(in1_dgrad).to("cuda")
-        in2_dgrad_torch = torch.tensor(in2_dgrad).to("cuda")
+        out_grad_torch = torch.tensor(out_grad_kernel).to("cuda").requires_grad_(True)
+        in1_dgrad_torch = torch.tensor(in1_dgrad_kernel).to("cuda")
+        in2_dgrad_torch = torch.tensor(in2_dgrad_kernel).to("cuda")
         weights_dgrad_torch = torch.tensor(weights_dgrad).to("cuda")
         out_torch = self.forward(in1_torch, in2_torch, weights_torch)
 
@@ -36,12 +56,22 @@ def double_backward_cpu(
             grad_outputs=[in1_dgrad_torch, in2_dgrad_torch, weights_dgrad_torch],
         )
 
-        return (
-            a.detach().cpu().numpy(),
-            b.detach().cpu().numpy(),
-            c.detach().cpu().numpy(),
-            d.detach().cpu().numpy(),
+        a_np = a.detach().cpu().numpy()
+        b_np = b.detach().cpu().numpy()
+        c_np = c.detach().cpu().numpy()
+        d_np = d.detach().cpu().numpy()
+
+        a_np = IrrepLayoutUtils.transpose_irrep_layout(
+            a_np, self.config.irreps_in1, "mul_ir", layout
         )
+        b_np = IrrepLayoutUtils.transpose_irrep_layout(
+            b_np, self.config.irreps_in2, "mul_ir", layout
+        )
+        d_np = IrrepLayoutUtils.transpose_irrep_layout(
+            d_np, self.config.irreps_out, "mul_ir", layout
+        )
+
+        return (a_np, b_np, c_np, d_np)
 
 
 class NumpyDoubleBackwardMixinConv:
@@ -54,12 +84,30 @@ def double_backward_cpu(
     ):
         assert self.torch_op
 
-        in1_torch = torch.tensor(in1).to("cuda").requires_grad_(True)
-        in2_torch = torch.tensor(in2).to("cuda").requires_grad_(True)
+        layout = self.config.layout
+
+        in1_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            in1, self.config.irreps_in1, layout, "mul_ir"
+        )
+        in2_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            in2, self.config.irreps_in2, layout, "mul_ir"
+        )
+        out_grad_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            out_grad, self.config.irreps_out, layout, "mul_ir"
+        )
+        in1_dgrad_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            in1_dgrad, self.config.irreps_in1, layout, "mul_ir"
+        )
+        in2_dgrad_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            in2_dgrad, self.config.irreps_in2, layout, "mul_ir"
+        )
+
+        in1_torch = torch.tensor(in1_kernel).to("cuda").requires_grad_(True)
+        in2_torch = torch.tensor(in2_kernel).to("cuda").requires_grad_(True)
         weights_torch = torch.tensor(weights).to("cuda").requires_grad_(True)
-        out_grad_torch = torch.tensor(out_grad).to("cuda").requires_grad_(True)
-        in1_dgrad_torch = torch.tensor(in1_dgrad).to("cuda")
-        in2_dgrad_torch = torch.tensor(in2_dgrad).to("cuda")
+        out_grad_torch = torch.tensor(out_grad_kernel).to("cuda").requires_grad_(True)
+        in1_dgrad_torch = torch.tensor(in1_dgrad_kernel).to("cuda")
+        in2_dgrad_torch = torch.tensor(in2_dgrad_kernel).to("cuda")
         weights_dgrad_torch = torch.tensor(weights_dgrad).to("cuda")
 
         torch_rows = torch.tensor(graph.rows, device="cuda")
@@ -89,9 +137,19 @@ def double_backward_cpu(
             grad_outputs=[in1_dgrad_torch, in2_dgrad_torch, weights_dgrad_torch],
         )
 
-        return (
-            a.detach().cpu().numpy(),
-            b.detach().cpu().numpy(),
-            c.detach().cpu().numpy(),
-            d.detach().cpu().numpy(),
+        a_np = a.detach().cpu().numpy()
+        b_np = b.detach().cpu().numpy()
+        c_np = c.detach().cpu().numpy()
+        d_np = d.detach().cpu().numpy()
+
+        a_np = IrrepLayoutUtils.transpose_irrep_layout(
+            a_np, self.config.irreps_in1, "mul_ir", layout
+        )
+        b_np = IrrepLayoutUtils.transpose_irrep_layout(
+            b_np, self.config.irreps_in2, "mul_ir", layout
         )
+        d_np = IrrepLayoutUtils.transpose_irrep_layout(
+            d_np, self.config.irreps_out, "mul_ir", layout
+        )
+
+        return (a_np, b_np, c_np, d_np)
@@ -1,17 +1,21 @@
-from openequivariance.core.LoopUnrollTP import LoopUnrollTP
+import numpy as np
+import torch
+
 from openequivariance import TPProblem
 from openequivariance._torch import extlib
-import torch
-from openequivariance.core.utils import torch_to_oeq_dtype, dtype_to_enum
-from openequivariance.benchmark.logging_utils import getLogger
+from openequivariance._torch.NPDoubleBackwardMixin import NumpyDoubleBackwardMixin
 from openequivariance._torch.utils import (
+    enum_to_torch_dtype,
     reorder_torch,
     string_to_tensor,
-    enum_to_torch_dtype,
 )
-from openequivariance._torch.NPDoubleBackwardMixin import NumpyDoubleBackwardMixin
-
-import numpy as np
+from openequivariance.benchmark.logging_utils import getLogger
+from openequivariance.core.LoopUnrollTP import LoopUnrollTP
+from openequivariance.core.utils import (
+    IrrepLayoutUtils,
+    dtype_to_enum,
+    torch_to_oeq_dtype,
+)
 
 logger = getLogger()
 
@@ -146,12 +150,24 @@ def forward_cpu(
             weights, not self.config.shared_weights
         )
 
-        torch_L1_in = torch.tensor(L1_in, device="cuda")
-        torch_L2_in = torch.tensor(L2_in, device="cuda")
+        layout = self.config.layout
+
+        L1_in_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            L1_in, self.config.irreps_in1, layout, "mul_ir"
+        )
+        L2_in_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            L2_in, self.config.irreps_in2, layout, "mul_ir"
+        )
+
+        torch_L1_in = torch.tensor(L1_in_kernel, device="cuda")
+        torch_L2_in = torch.tensor(L2_in_kernel, device="cuda")
         torch_weights = torch.tensor(weights_chunked, device="cuda")
         torch_L3_out = self.forward(torch_L1_in, torch_L2_in, torch_weights)
 
-        L3_out[:] = torch_L3_out.numpy(force=True)
+        L3_kernel = torch_L3_out.numpy(force=True)
+        L3_out[:] = IrrepLayoutUtils.transpose_irrep_layout(
+            L3_kernel, self.config.irreps_out, "mul_ir", layout
+        )
 
     def backward_cpu(
         self, L1_in, L1_grad, L2_in, L2_grad, L3_grad, weights, weights_grad
@@ -160,18 +176,37 @@ def backward_cpu(
             weights, not self.config.shared_weights
         )
 
-        torch_L1_in = torch.tensor(L1_in, requires_grad=True, device="cuda")
-        torch_L2_in = torch.tensor(L2_in, requires_grad=True, device="cuda")
+        layout = self.config.layout
+
+        L1_in_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            L1_in, self.config.irreps_in1, layout, "mul_ir"
+        )
+        L2_in_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            L2_in, self.config.irreps_in2, layout, "mul_ir"
+        )
+        L3_grad_kernel = IrrepLayoutUtils.transpose_irrep_layout(
+            L3_grad, self.config.irreps_out, layout, "mul_ir"
+        )
+
+        torch_L1_in = torch.tensor(L1_in_kernel, requires_grad=True, device="cuda")
+        torch_L2_in = torch.tensor(L2_in_kernel, requires_grad=True, device="cuda")
         torch_weights = torch.tensor(weights_chunked, requires_grad=True, device="cuda")
 
         torch_out = self.forward(torch_L1_in, torch_L2_in, torch_weights)
 
-        torch_L3_grad_in = torch.tensor(L3_grad, device="cuda")
+        torch_L3_grad_in = torch.tensor(L3_grad_kernel, device="cuda")
 
         torch_out.backward(gradient=torch_L3_grad_in)
 
-        L1_grad[:] = torch_L1_in.grad.numpy(force=True)
-        L2_grad[:] = torch_L2_in.grad.numpy(force=True)
+        L1_grad_kernel = torch_L1_in.grad.numpy(force=True)
+        L2_grad_kernel = torch_L2_in.grad.numpy(force=True)
+
+        L1_grad[:] = IrrepLayoutUtils.transpose_irrep_layout(
+            L1_grad_kernel, self.config.irreps_in1, "mul_ir", layout
+        )
+        L2_grad[:] = IrrepLayoutUtils.transpose_irrep_layout(
+            L2_grad_kernel, self.config.irreps_in2, "mul_ir", layout
+        )
         weights_grad[:] = torch_weights.grad.numpy(force=True)
 
         weights_grad[:] = self.reorder_weights_to_e3nn(
 
@@ -1,7 +1,9 @@
-import numpy as np
-from openequivariance.core.e3nn_lite import Irreps, TPProblem, wigner_3j
 from itertools import accumulate
+
+import numpy as np
+
 from openequivariance.benchmark.logging_utils import getLogger
+from openequivariance.core.e3nn_lite import Irreps, TPProblem, wigner_3j
 
 logger = getLogger()
 
@@ -27,10 +29,13 @@ def __init__(self, src_irreps, src_views, idxs):
         src_ranges = [src_irreps.slices()[idx] for idx in self.src_dst_map]
         dst_ranges = [self.dst_irreps.slices()[i] for i in self.src_dst_map.values()]
 
+        if src_views[0].layout == "ir_mul":
+            return
+
+        # Merge adjacent src and dst ranges
         self.original_src_ranges = src_ranges
         self.original_dst_ranges = dst_ranges
 
-        # Merge adjacent src and dst ranges
         self.src_ranges = []
         self.dst_ranges = []
 
@@ -195,9 +200,10 @@ def __init__(self, instruction_tup, parent_idx):
             self.instruction_tup, self.parent_idx = instruction_tup, parent_idx
 
     class ChildView:
-        layout: str
-        ir_mul_offset: int
-        ir_mul_stride: int
+        def __init__(self, layout: str, ir_mul_offset: int, ir_mul_stride: int):
+            self.layout = layout
+            self.ir_mul_offset = ir_mul_offset
+            self.ir_mul_stride = ir_mul_stride
 
     def __init__(self, input, mult_threshold):
         self.input = input
@@ -207,7 +213,7 @@ def __init__(self, input, mult_threshold):
         child_reps = [[], [], []]
 
         self.irrep_maps = {}  # Maps a (input_rep_idx #, mul_ir_idx) to a lst[ir_idx]
-        self.irrep_views = [[], [], []] # View 
+        self.irrep_views = [[], [], []]  # View
 
         for input_rep_idx, input_rep in enumerate(input_reps):  # Loop over L1, L2, L3
             for mul_ir_idx, mul_ir in enumerate(
@@ -223,19 +229,20 @@ def __init__(self, input, mult_threshold):
                         len(child_reps[input_rep_idx]) - 1
                     )
                     if input.layout == "mul_ir":
-                        self.irrep_views.append(
+                        self.irrep_views[input_rep_idx].append(
                             self.ChildView(
-                                layout="mul_ir",
-                                ir_mul_offset=-1,
-                                ir_mul_stride=-1
-                            ))
+                                layout="mul_ir", ir_mul_offset=-1, ir_mul_stride=-1
+                            )
+                        )
                     elif input.layout == "ir_mul":
-                        self.irrep_views.append(
+                        self.irrep_views[input_rep_idx].append(
                             self.ChildView(
                                 layout="ir_mul",
-                                ir_mul_offset=input_rep.slices()[mul_ir_idx].start + mul_start,
-                                ir_mul_stride=mul_ir.mul
-                            ))
+                                ir_mul_offset=input_rep.slices()[mul_ir_idx].start
+                                + mul_start,
+                                ir_mul_stride=mul_ir.mul,
+                            )
+                        )
 
         new_instructions = []
 
@@ -564,9 +571,9 @@ def calculate_backward_smem(
         for i in range(len(self.segments)):
             L1_idxs, L2_idxs, L3_idxs, inst_idxs = self.segments[i]
 
-            L1Map = IrrepMapping(self.L1, L1_idxs)
-            L2Map = IrrepMapping(self.L2, L2_idxs)
-            L3Map = IrrepMapping(self.L3, L3_idxs)
+            L1Map = IrrepMapping(self.L1, self.problem_splitter.irrep_views[0], L1_idxs)
+            L2Map = IrrepMapping(self.L2, self.problem_splitter.irrep_views[1], L2_idxs)
+            L3Map = IrrepMapping(self.L3, self.problem_splitter.irrep_views[2], L3_idxs)
 
             instructions = [
                 (