Avoided transposing irreps once the shared memory load is complete.

vbharadwaj-bk · vbharadwaj-bk · commit c78d48ff6cb8 · 2026-03-21T18:22:25.000-07:00
diff --git a/openequivariance/openequivariance/core/LoopUnrollTP.py b/openequivariance/openequivariance/core/LoopUnrollTP.py
@@ -1,16 +1,20 @@
-import numpy as np
 import json
 
-from openequivariance.templates.jinja_utils import get_jinja_environment
-from openequivariance.core.ComputationSchedule import ComputationSchedule
-from openequivariance.core.TensorProductBase import TensorProductBase
-from openequivariance.benchmark.logging_utils import getLogger
-from openequivariance.core.utils import dtype_to_enum, hash_str_64
+import numpy as np
 
+from openequivariance.benchmark.logging_utils import getLogger
+from openequivariance.core.ComputationSchedule import (
+    ComputationSchedule,
+    SMEMCapacityException,
+)
+from openequivariance.core.TensorProductBase import TensorProductBase
 from openequivariance.core.utils import (
-    filter_and_analyze_problem,
     count_cg_non_zero,
+    dtype_to_enum,
+    filter_and_analyze_problem,
+    hash_str_64,
 )
+from openequivariance.templates.jinja_utils import get_jinja_environment
 
 logger = getLogger()
 
@@ -80,12 +84,14 @@ def generate_double_backward_schedule(warps_per_block):
                 try:
                     generate_schedule(warp_count)
                     break
-                except Exception:
+                except SMEMCapacityException:
                     warp_count -= 2
                     if warp_count == 0:
                         raise RuntimeError(
                             "Tensor product schedule generation failed, shared memory inadequate!"
                         )
+                except Exception:
+                    raise
 
         self.jit_kernel = postprocess_kernel(
             template.render(
diff --git a/openequivariance/openequivariance/core/e3nn_lite.py b/openequivariance/openequivariance/core/e3nn_lite.py
@@ -36,14 +36,15 @@
 SOFTWARE.
 """
 
-import itertools
-from typing import Tuple, NamedTuple, Union, List, Any, Optional
-from math import sqrt, prod
 import collections
+import copy
+import functools
+import itertools
+from math import prod, sqrt
+from typing import Any, List, NamedTuple, Optional, Tuple, Union
+
 import numpy as np
 import numpy.linalg as la
-import functools
-import copy
 
 
 def perm_inverse(p):
@@ -412,7 +413,7 @@ def __init__(
         label: Optional[str] = None,
         irrep_dtype: type[np.generic] = np.float32,
         weight_dtype: type[np.generic] = np.float32,
-        layout: str = "mul_ir"
+        layout: str = "mul_ir",
     ) -> None:
         # === Setup ===
         super().__init__()
@@ -434,6 +435,7 @@ def __init__(
         self.irrep_normalization = irrep_normalization
         self.path_normalization = path_normalization
         self.label = label if label is not None else ""
+        self.layout = layout
         del irreps_in1, irreps_in2, irreps_out
 
         instructions = [x if len(x) == 6 else x + (1.0,) for x in instructions]
diff --git a/openequivariance/openequivariance/templates/loop_unroll_tp.cuh b/openequivariance/openequivariance/templates/loop_unroll_tp.cuh
@@ -1,4 +1,4 @@
-{%- from 'macros.jinja' import transpose_load, transpose_store, reg_store with context %}
+{%- from 'macros.jinja' import layout_load, layout_store with context %}
 {%- from 'wmm.cuh' import generate_matmul %}
 
 {%- macro generate_segment_kernel_forward(id, segment, warp_size) %}
@@ -36,7 +36,7 @@ __device__ __forceinline__ void forward_loop_unroll_{{id}}(IRREP_T* __restrict__
 
         {%- if k == 0 or interactions[k][0] != interactions[k-1][0] %}
             offset = {{ L1.slices()[u].start}}; 
-            {{transpose_load(L1[u].mul, L1[u].ir.dim, 'L1_smem', 'offset', 'l1_vec')}}
+            {{layout_load(problem.layout, L1[u].mul, L1[u].ir.dim, 'L1_smem', 'offset', 'l1_vec')}}
         {%- endif %}
 
         #pragma unroll
@@ -72,7 +72,7 @@ __device__ __forceinline__ void forward_loop_unroll_{{id}}(IRREP_T* __restrict__
             // ----------------- CORE CALCULATION -----------------
 
             {%- if problem.instructions[k].connection_mode == "uvw" %}
-                {{transpose_store(L1[u].mul, L3[w].ir.dim, 'scratch', '0', 'l3_vec', '=', '1.0')}}
+                {{layout_store(problem.layout, L1[u].mul, L3[w].ir.dim, 'scratch', '0', 'l3_vec', '=', '1.0')}}
                 __syncwarp();
                 offset = {{ L3.slices()[w].start}}; 
                 matmul_fwd_{{id}}_{{k}}(weights_smem, scratch, L3_smem + offset);
@@ -85,7 +85,7 @@ __device__ __forceinline__ void forward_loop_unroll_{{id}}(IRREP_T* __restrict__
 
             {%- if problem.instructions[k].connection_mode != "uvw" %}
                 offset = {{ L3.slices()[w].start}}; 
-                {{transpose_store(L3[w].mul, L3[w].ir.dim, 'L3_smem', 'offset', 'l3_vec', '+=', '1.0')}}
+                {{layout_store(problem.layout, L3[w].mul, L3[w].ir.dim, 'L3_smem', 'offset', 'l3_vec', '+=', '1.0')}}
 
                 {%- if L2[v].mul > 1%}
                 #pragma unroll
@@ -168,15 +168,15 @@ __device__ __forceinline__ void forward_loop_unroll_{{id}}(IRREP_T* __restrict__
 
         {%- if k == 0 or interactions[k][0] != interactions[k-1][0] %}
             offset = {{ L1.slices()[u].start}};
-            {{transpose_load(L1[u].mul, L1[u].ir.dim, 'L1_smem', 'offset', 'l1_vec')}}
-            {{transpose_load(L1[u].mul, L1[u].ir.dim, 'L1_grad_smem', 'offset', 'l1_grad')}}
+            {{layout_load(problem.layout, L1[u].mul, L1[u].ir.dim, 'L1_smem', 'offset', 'l1_vec')}}
+            {{layout_load(problem.layout, L1[u].mul, L1[u].ir.dim, 'L1_grad_smem', 'offset', 'l1_grad')}}
         {%- endif %}
 
 
         {%- if problem.instructions[k].connection_mode != "uvw" %}
             {%- if k == 0 or interactions[k][2] != interactions[k-1][2] %}
                 offset = {{ L3.slices()[w].start}}; 
-                {{transpose_load(L3[w].mul, L3[w].ir.dim, 'L3_grad_smem', 'offset', 'l3_grad')}}
+                {{layout_load(problem.layout, L3[w].mul, L3[w].ir.dim, 'L3_grad_smem', 'offset', 'l3_grad')}}
             {%- endif %}
         {%- endif %}
 
@@ -225,7 +225,7 @@ __device__ __forceinline__ void forward_loop_unroll_{{id}}(IRREP_T* __restrict__
                     {{matmul_basename}}A_{{id}}_{{k}}(weights_smem, L3_grad_smem + offset, scratch);
                     __syncwarp();
 
-                    {{transpose_load(L1[u].mul, L3[w].ir.dim, 'scratch', '0', 'l3_grad')}}
+                    {{layout_load(problem.layout, L1[u].mul, L3[w].ir.dim, 'scratch', '0', 'l3_grad')}}
 
                     {%- for i in range(tensor.nnz) %} 
                         {%- set coord1, coord2, coord3, value = tensor.tuples[i] %}
@@ -248,7 +248,7 @@ __device__ __forceinline__ void forward_loop_unroll_{{id}}(IRREP_T* __restrict__
                         {%- endif %}
                     {%- endfor %}
 
-                    {{ reg_store(L1[u].mul, L3[w].ir.dim, "scratch", "0", "l3_grad", "=", 1.0) }}
+                    {{ layout_store(problem.layout, L1[u].mul, L3[w].ir.dim, "scratch", "0", "l3_grad", "=", 1.0) }}
 
                     __syncwarp(); 
                     {{matmul_basename}}B_{{id}}_{{k}}(L3_grad_smem + offset, scratch, weights_smem);
@@ -305,7 +305,7 @@ __device__ __forceinline__ void forward_loop_unroll_{{id}}(IRREP_T* __restrict__
         // Storeback
         {%- if k == num_interact - 1 or interactions[k][0] != interactions[k+1][0] %}
             offset = {{ L1.slices()[u].start}}; 
-            {{transpose_store(L1[u].mul, L1[u].ir.dim, 'L1_grad_smem', 'offset', 'l1_grad', '=', '1.0')}}
+            {{layout_store(problem.layout, L1[u].mul, L1[u].ir.dim, 'L1_grad_smem', 'offset', 'l1_grad', '=', '1.0')}}
         {%- endif %}
 
     {%- endfor %}
diff --git a/openequivariance/openequivariance/templates/macros.jinja b/openequivariance/openequivariance/templates/macros.jinja
@@ -50,6 +50,22 @@ Keys map to lists of tuples with (name, dtype, num_elements) of each subarray.
     }
 {%- endmacro %}
 
+{%- macro layout_load(layout, mul, dim, smem, offset, reg) %}
+    {%- if layout == "ir_mul" %}
+        {{ reg_load(mul, dim, smem, offset, reg) }}
+    {%- else %}
+        {{ transpose_load(mul, dim, smem, offset, reg) }}
+    {%- endif %}
+{%- endmacro %}
+
+{%- macro layout_store(layout, mul, dim, smem, offset, reg, op, coeff) %}
+    {%- if layout == "ir_mul" %}
+        {{ reg_store(mul, dim, smem, offset, reg, op, coeff) }}
+    {%- else %}
+        {{ transpose_store(mul, dim, smem, offset, reg, op, coeff) }}
+    {%- endif %}
+{%- endmacro %}
+
 {%- macro declare_smem_variables(segment, smem_base) %}
     {%- for name in segment.smem %}
         {%- if name != "total" %}
@@ -75,7 +91,7 @@ Keys map to lists of tuples with (name, dtype, num_elements) of each subarray.
                 {%- set dim = src_mul_ir.ir.dim %}
                 {%- set mul = src_mul_ir.mul %}
                 {%- for i in range(dim) %}
-                    ROW_OPERATION({{mul}}, {{loop_var}}, {{smem_ptr}}[{{dst_rng.start + i * mul}} + {{loop_var}} + lane_id] = {{glb_ptr_shft}}[{{src_view.ir_mul_offset + i * src_view.ir_mul_stride}} + {{loop_var}}];)
+                    ROW_OPERATION({{mul}}, {{loop_var}}, {{smem_ptr}}[{{dst_rng.start + loop_var + i * mul}} + lane_id] = {{glb_ptr_shft}}[{{src_view.ir_mul_offset + i * src_view.ir_mul_stride}} + {{loop_var}}];)
                 {%- endfor %}
             {%- endfor %}
         {%- endif %}
@@ -97,7 +113,7 @@ Keys map to lists of tuples with (name, dtype, num_elements) of each subarray.
             {%- set dim = src_mul_ir.ir.dim %}
             {%- set mul = src_mul_ir.mul %}
             {%- for i in range(dim) %}
-                ROW_OPERATION({{mul}}, {{loop_var}}, {{smem_ptr}}[{{dst_rng.start + i * mul}} + {{loop_var}} + lane_id] = {{glb_ptr_shft}}[{{src_view.ir_mul_offset + i * src_view.ir_mul_stride}} + {{loop_var}}];)
+                ROW_OPERATION({{mul}}, {{loop_var}}, {{smem_ptr}}[{{dst_rng.start + loop_var + i * mul}} + lane_id] = {{glb_ptr_shft}}[{{src_view.ir_mul_offset + i * src_view.ir_mul_stride}} + {{loop_var}}];)
             {%- endfor %}
         {%- endfor %}
     {%- endif %}
@@ -128,15 +144,15 @@ Keys map to lists of tuples with (name, dtype, num_elements) of each subarray.
                 {%- set mul = src_mul_ir.mul %}
                 {%- if map.storeback_procedure[idx] == "write" %}
                     {%- for i in range(dim) %}
-                        ROW_OPERATION({{mul}}, {{loop_var}}, {{glb_ptr_shft}}[{{src_view.ir_mul_offset + i * src_view.ir_mul_stride}} + {{loop_var}}] = {{smem_ptr}}[{{dst_rng.start + i * mul}} + {{loop_var}} + lane_id];)
+                        ROW_OPERATION({{mul}}, {{loop_var}}, {{glb_ptr_shft}}[{{src_view.ir_mul_offset + i * src_view.ir_mul_stride}} + {{loop_var}}] = {{smem_ptr}}[{{dst_rng.start + loop_var + i * mul}} + lane_id];)
                     {%- endfor %}
                 {%- elif map.storeback_procedure[idx] == "accumulate" %}
                     {%- for i in range(dim) %}
-                        ROW_OPERATION({{mul}}, {{loop_var}}, {{glb_ptr_shft}}[{{src_view.ir_mul_offset + i * src_view.ir_mul_stride}} + {{loop_var}}] += {{smem_ptr}}[{{dst_rng.start + i * mul}} + {{loop_var}} + lane_id];)
+                        ROW_OPERATION({{mul}}, {{loop_var}}, {{glb_ptr_shft}}[{{src_view.ir_mul_offset + i * src_view.ir_mul_stride}} + {{loop_var}}] += {{smem_ptr}}[{{dst_rng.start + loop_var + i * mul}} + lane_id];)
                     {%- endfor %}
                 {%- elif map.storeback_procedure[idx] == "atomic_accumulate" %}
                     {%- for i in range(dim) %}
-                        ROW_OPERATION({{mul}}, {{loop_var}}, atomicAdd({{glb_ptr_shft}} + {{src_view.ir_mul_offset + i * src_view.ir_mul_stride}} + {{loop_var}}, {{smem_ptr}}[{{dst_rng.start + i * mul}} + lane_id + {{loop_var}}]);)
+                        ROW_OPERATION({{mul}}, {{loop_var}}, atomicAdd({{glb_ptr_shft}} + {{src_view.ir_mul_offset + i * src_view.ir_mul_stride}} + {{loop_var}}, {{smem_ptr}}[{{dst_rng.start + loop_var + i * mul}} + lane_id]);)
                     {%- endfor %}
                 {%- endif %}
             {%- endfor %}