Rev for stoch matrices

WardBrian · WardBrian · commit f55acbd7da01 · 2025-04-04T10:25:06.000-04:00
diff --git a/stan/math/rev/constraint/stochastic_column_constrain.hpp b/stan/math/rev/constraint/stochastic_column_constrain.hpp
@@ -1,13 +1,13 @@
 #ifndef STAN_MATH_REV_CONSTRAINT_STOCHASTIC_COLUMN_CONSTRAIN_HPP
 #define STAN_MATH_REV_CONSTRAINT_STOCHASTIC_COLUMN_CONSTRAIN_HPP
 
+#include <stan/math/prim/fun/Eigen.hpp>
 #include <stan/math/rev/meta.hpp>
 #include <stan/math/rev/core/reverse_pass_callback.hpp>
 #include <stan/math/rev/core/arena_matrix.hpp>
 #include <stan/math/rev/fun/value_of.hpp>
-#include <stan/math/prim/fun/Eigen.hpp>
-#include <stan/math/prim/fun/inv_logit.hpp>
-#include <stan/math/prim/fun/log1p_exp.hpp>
+#include <stan/math/prim/constraint/stochastic_column_constrain.hpp>
+#include <stan/math/rev/constraint/sum_to_zero_constrain.hpp>
 #include <cmath>
 #include <tuple>
 #include <vector>
@@ -27,44 +27,36 @@ namespace math {
 template <typename T, require_rev_matrix_t<T>* = nullptr>
 inline plain_type_t<T> stochastic_column_constrain(const T& y) {
   using ret_type = plain_type_t<T>;
-  const Eigen::Index N = y.rows();
-  const Eigen::Index M = y.cols();
-  using eigen_mat_rowmajor
-      = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::RowMajor>;
-  arena_t<eigen_mat_rowmajor> x_val(N + 1, M);
+
+  const auto N = y.rows();
+  const auto M = y.cols();
+  arena_t<T> arena_y = y;
+
+  arena_t<ret_type> arena_x = stochastic_column_constrain(arena_y.val_op());
+
   if (unlikely(N == 0 || M == 0)) {
-    return ret_type(x_val);
-  }
-  arena_t<change_eigen_options_t<T, Eigen::RowMajor>> arena_y = y;
-  arena_t<eigen_mat_rowmajor> arena_z(N, M);
-  using arr_vec = Eigen::Array<double, 1, -1>;
-  arr_vec stick_len = arr_vec::Constant(M, 1.0);
-  for (Eigen::Index k = 0; k < N; ++k) {
-    const double log_N_minus_k = std::log(N - k);
-    arena_z.row(k)
-        = inv_logit(arena_y.array().row(k).val_op() - log_N_minus_k).matrix();
-    x_val.row(k) = stick_len.array() * arena_z.array().row(k);
-    stick_len -= x_val.array().row(k);
+    return arena_x;
   }
-  x_val.row(N) = stick_len;
-  arena_t<ret_type> arena_x = x_val;
-  reverse_pass_callback([arena_y, arena_x, arena_z]() mutable {
-    const Eigen::Index N = arena_y.rows();
-    auto arena_x_arr = arena_x.array();
-    auto arena_y_arr = arena_y.array();
-    auto arena_z_arr = arena_z.array();
-    auto stick_len_val = arena_x.array().row(N).val().eval();
-    auto stick_len_adj = arena_x.array().row(N).adj().eval();
-    for (Eigen::Index k = N; k-- > 0;) {
-      arena_x_arr.row(k).adj() -= stick_len_adj;
-      stick_len_val += arena_x_arr.row(k).val();
-      stick_len_adj += arena_x_arr.row(k).adj() * arena_z_arr.row(k);
-      auto arena_z_adj = arena_x_arr.row(k).adj() * stick_len_val;
-      arena_y_arr.row(k).adj()
-          += arena_z_adj * arena_z_arr.row(k) * (1.0 - arena_z_arr.row(k));
+
+  reverse_pass_callback([arena_y, arena_x]() mutable {
+    const auto M = arena_y.cols();
+
+    const auto& x_val = to_ref(arena_x.val_op());
+    const auto& x_adj = to_ref(arena_x.adj_op());
+
+    for (Eigen::Index i = 0; i < M; ++i) {
+      // backprop for softmax
+      Eigen::VectorXd x_pre_softmax_adj
+          = -x_val.col(i) * x_adj.col(i).dot(x_val.col(i))
+            + x_val.col(i).cwiseProduct(x_adj.col(i));
+
+      // backprop for sum_to_zero_constrain
+      internal::sum_to_zero_vector_backprop(arena_y.col(i).adj(),
+                                            x_pre_softmax_adj);
     }
   });
-  return ret_type(arena_x);
+
+  return arena_x;
 }
 
 /**
@@ -84,51 +76,43 @@ template <typename T, require_rev_matrix_t<T>* = nullptr>
 inline plain_type_t<T> stochastic_column_constrain(const T& y,
                                                    scalar_type_t<T>& lp) {
   using ret_type = plain_type_t<T>;
-  const Eigen::Index N = y.rows();
-  const Eigen::Index M = y.cols();
-  using eigen_mat_rowmajor
-      = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::RowMajor>;
-  arena_t<eigen_mat_rowmajor> x_val(N + 1, M);
+
+  const auto N = y.rows();
+  const auto M = y.cols();
+  arena_t<T> arena_y = y;
+
+  double lp_val = 0;
+  arena_t<ret_type> arena_x
+      = stochastic_column_constrain(arena_y.val_op(), lp_val);
+  lp += lp_val;
+
   if (unlikely(N == 0 || M == 0)) {
-    return ret_type(x_val);
+    return arena_x;
   }
-  arena_t<change_eigen_options_t<T, Eigen::RowMajor>> arena_y = y;
-  arena_t<eigen_mat_rowmajor> arena_z(N, M);
-  using arr_vec = Eigen::Array<double, 1, -1>;
-  arr_vec stick_len = arr_vec::Constant(M, 1.0);
-  arr_vec adj_y_k(N);
-  for (Eigen::Index k = 0; k < N; ++k) {
-    double log_N_minus_k = std::log(N - k);
-    adj_y_k = arena_y.array().row(k).val() - log_N_minus_k;
-    arena_z.array().row(k) = inv_logit(adj_y_k);
-    x_val.array().row(k) = stick_len * arena_z.array().row(k);
-    lp += sum(log(stick_len)) - sum(log1p_exp(-adj_y_k))
-          - sum(log1p_exp(adj_y_k));
-    stick_len -= x_val.array().row(k);
-  }
-  x_val.array().row(N) = stick_len;
-  arena_t<ret_type> arena_x = x_val;
-  reverse_pass_callback([arena_y, arena_x, arena_z, lp]() mutable {
-    const Eigen::Index N = arena_y.rows();
-    auto arena_x_arr = arena_x.array();
-    auto arena_y_arr = arena_y.array();
-    auto arena_z_arr = arena_z.array();
-    auto stick_len_val = arena_x.array().row(N).val().eval();
-    auto stick_len_adj = arena_x.array().row(N).adj().eval();
-    for (Eigen::Index k = N; k-- > 0;) {
-      const double log_N_minus_k = std::log(N - k);
-      arena_x_arr.row(k).adj() -= stick_len_adj;
-      stick_len_val += arena_x_arr.row(k).val();
-      stick_len_adj += lp.adj() / stick_len_val
-                       + arena_x_arr.row(k).adj() * arena_z_arr.row(k);
-      auto adj_y_k = arena_y_arr.row(k).val() - log_N_minus_k;
-      auto arena_z_adj = arena_x_arr.row(k).adj() * stick_len_val;
-      arena_y_arr.row(k).adj()
-          += -(lp.adj() * inv_logit(adj_y_k)) + lp.adj() * inv_logit(-adj_y_k)
-             + arena_z_adj * arena_z_arr.row(k) * (1.0 - arena_z_arr.row(k));
+
+  reverse_pass_callback([arena_y, arena_x, lp]() mutable {
+    const auto M = arena_y.cols();
+
+    const auto& x_val = to_ref(arena_x.val_op());
+
+    // backprop for log jacobian contribution to log density
+    arena_x.adj().array() += lp.adj() / x_val.array();
+
+    const auto& x_adj = to_ref(arena_x.adj_op());
+
+    for (Eigen::Index i = 0; i < M; ++i) {
+      // backprop for softmax
+      Eigen::VectorXd x_pre_softmax_adj
+          = -x_val.col(i) * x_adj.col(i).dot(x_val.col(i))
+            + x_val.col(i).cwiseProduct(x_adj.col(i));
+
+      // backprop for sum_to_zero_constrain
+      internal::sum_to_zero_vector_backprop(arena_y.col(i).adj(),
+                                            x_pre_softmax_adj);
     }
   });
-  return ret_type(arena_x);
+
+  return arena_x;
 }
 
 }  // namespace math
diff --git a/stan/math/rev/constraint/stochastic_row_constrain.hpp b/stan/math/rev/constraint/stochastic_row_constrain.hpp
@@ -1,13 +1,13 @@
 #ifndef STAN_MATH_REV_CONSTRAINT_STOCHASTIC_ROW_CONSTRAIN_HPP
 #define STAN_MATH_REV_CONSTRAINT_STOCHASTIC_ROW_CONSTRAIN_HPP
 
+#include <stan/math/prim/fun/Eigen.hpp>
 #include <stan/math/rev/meta.hpp>
 #include <stan/math/rev/core/reverse_pass_callback.hpp>
 #include <stan/math/rev/core/arena_matrix.hpp>
 #include <stan/math/rev/fun/value_of.hpp>
-#include <stan/math/prim/fun/Eigen.hpp>
-#include <stan/math/prim/fun/inv_logit.hpp>
-#include <stan/math/prim/fun/log1p_exp.hpp>
+#include <stan/math/prim/constraint/stochastic_row_constrain.hpp>
+#include <stan/math/rev/constraint/sum_to_zero_constrain.hpp>
 #include <cmath>
 #include <tuple>
 #include <vector>
@@ -23,43 +23,38 @@ namespace math {
  * @return Matrix with Simplexes along the rows of dimensionality (N, K)
  */
 template <typename T, require_rev_matrix_t<T>* = nullptr>
-inline plain_type_t<T> stochastic_row_constrain(const T& y) {
+inline auto stochastic_row_constrain(const T& y) {
   using ret_type = plain_type_t<T>;
-  const Eigen::Index N = y.rows();
-  const Eigen::Index M = y.cols();
-  arena_t<Eigen::MatrixXd> x_val(N, M + 1);
-  if (unlikely(N == 0 || M == 0)) {
-    return ret_type(x_val);
-  }
+
+  const auto N = y.rows();
+  const auto M = y.cols();
   arena_t<T> arena_y = y;
-  arena_t<Eigen::MatrixXd> arena_z(N, M);
-  Eigen::Array<double, -1, 1> stick_len = Eigen::Array<double, -1, 1>::Ones(N);
-  for (Eigen::Index j = 0; j < M; ++j) {
-    double log_N_minus_k = std::log(M - j);
-    arena_z.col(j).array()
-        = inv_logit((arena_y.col(j).val_op().array() - log_N_minus_k).matrix());
-    x_val.col(j).array() = stick_len * arena_z.col(j).array();
-    stick_len -= x_val.col(j).array();
+
+  arena_t<ret_type> arena_x = stochastic_row_constrain(arena_y.val_op());
+
+  if (unlikely(N == 0 || M == 0)) {
+    return arena_x;
   }
-  x_val.col(M).array() = stick_len;
-  arena_t<ret_type> arena_x = x_val;
-  reverse_pass_callback([arena_y, arena_x, arena_z]() mutable {
-    const Eigen::Index M = arena_y.cols();
-    auto arena_y_arr = arena_y.array();
-    auto arena_x_arr = arena_x.array();
-    auto arena_z_arr = arena_z.array();
-    auto stick_len_val_arr = arena_x_arr.col(M).val_op().eval();
-    auto stick_len_adj_arr = arena_x_arr.col(M).adj_op().eval();
-    for (Eigen::Index k = M; k-- > 0;) {
-      arena_x_arr.col(k).adj() -= stick_len_adj_arr;
-      stick_len_val_arr += arena_x_arr.col(k).val_op();
-      stick_len_adj_arr += arena_x_arr.col(k).adj_op() * arena_z_arr.col(k);
-      arena_y_arr.col(k).adj() += arena_x_arr.adj_op().col(k)
-                                  * stick_len_val_arr * arena_z_arr.col(k)
-                                  * (1.0 - arena_z_arr.col(k));
+
+  reverse_pass_callback([arena_y, arena_x]() mutable {
+    const auto N = arena_y.rows();
+
+    const auto& x_val = to_ref(arena_x.val_op());
+    const auto& x_adj = to_ref(arena_x.adj_op());
+
+    for (Eigen::Index i = 0; i < N; ++i) {
+      // backprop for softmax
+      Eigen::VectorXd x_pre_softmax_adj
+          = -x_val.row(i) * x_adj.row(i).dot(x_val.row(i))
+            + x_val.row(i).cwiseProduct(x_adj.row(i));
+
+      // backprop for sum_to_zero_constrain
+      internal::sum_to_zero_vector_backprop(arena_y.row(i).adj(),
+                                            x_pre_softmax_adj);
     }
   });
-  return ret_type(arena_x);
+
+  return arena_x;
 }
 
 /**
@@ -79,47 +74,43 @@ template <typename T, require_rev_matrix_t<T>* = nullptr>
 inline plain_type_t<T> stochastic_row_constrain(const T& y,
                                                 scalar_type_t<T>& lp) {
   using ret_type = plain_type_t<T>;
-  const Eigen::Index N = y.rows();
-  const Eigen::Index M = y.cols();
-  arena_t<Eigen::MatrixXd> x_val(N, M + 1);
-  if (unlikely(N == 0 || M == 0)) {
-    return ret_type(x_val);
-  }
+
+  const auto N = y.rows();
+  const auto M = y.cols();
   arena_t<T> arena_y = y;
-  arena_t<Eigen::MatrixXd> arena_z(N, M);
-  Eigen::Array<double, -1, 1> stick_len = Eigen::Array<double, -1, 1>::Ones(N);
-  for (Eigen::Index j = 0; j < M; ++j) {
-    double log_N_minus_k = std::log(M - j);
-    auto adj_y_k = arena_y.col(j).val_op().array() - log_N_minus_k;
-    arena_z.col(j).array() = inv_logit(adj_y_k);
-    x_val.col(j).array() = stick_len * arena_z.col(j).array();
-    lp += sum(log(stick_len)) - sum(log1p_exp(-adj_y_k))
-          - sum(log1p_exp(adj_y_k));
-    stick_len -= x_val.col(j).array();
+
+  double lp_val = 0;
+  arena_t<ret_type> arena_x
+      = stochastic_row_constrain(arena_y.val_op(), lp_val);
+  lp += lp_val;
+
+  if (unlikely(N == 0 || M == 0)) {
+    return arena_x;
   }
-  x_val.col(M).array() = stick_len;
-  arena_t<ret_type> arena_x = x_val;
-  reverse_pass_callback([arena_y, arena_x, arena_z, lp]() mutable {
-    const Eigen::Index M = arena_y.cols();
-    auto arena_y_arr = arena_y.array();
-    auto arena_x_arr = arena_x.array();
-    auto arena_z_arr = arena_z.array();
-    auto stick_len_val = arena_x_arr.col(M).val_op().eval();
-    auto stick_len_adj = arena_x_arr.col(M).adj_op().eval();
-    for (Eigen::Index k = M; k-- > 0;) {
-      const double log_N_minus_k = std::log(M - k);
-      arena_x_arr.col(k).adj() -= stick_len_adj;
-      stick_len_val += arena_x_arr.col(k).val_op();
-      stick_len_adj += lp.adj() / stick_len_val
-                       + arena_x_arr.adj_op().col(k) * arena_z_arr.col(k);
-      auto adj_y_k = arena_y_arr.col(k).val_op() - log_N_minus_k;
-      arena_y_arr.col(k).adj()
-          += -(lp.adj() * inv_logit(adj_y_k)) + lp.adj() * inv_logit(-adj_y_k)
-             + arena_x_arr.col(k).adj_op() * stick_len_val * arena_z_arr.col(k)
-                   * (1.0 - arena_z_arr.col(k));
+
+  reverse_pass_callback([arena_y, arena_x, lp]() mutable {
+    const auto N = arena_y.rows();
+
+    const auto& x_val = to_ref(arena_x.val_op());
+
+    // backprop for log jacobian contribution to log density
+    arena_x.adj().array() += lp.adj() / x_val.array();
+
+    const auto& x_adj = to_ref(arena_x.adj_op());
+
+    for (Eigen::Index i = 0; i < N; ++i) {
+      // backprop for softmax
+      Eigen::VectorXd x_pre_softmax_adj
+          = -x_val.row(i) * x_adj.row(i).dot(x_val.row(i))
+            + x_val.row(i).cwiseProduct(x_adj.row(i));
+
+      // backprop for sum_to_zero_constrain
+      internal::sum_to_zero_vector_backprop(arena_y.row(i).adj(),
+                                            x_pre_softmax_adj);
     }
   });
-  return ret_type(arena_x);
+
+  return arena_x;
 }
 
 }  // namespace math