Add summariseByExon function

ch99l · ch99l · commit b4277caecdd9 · 2026-04-14T15:19:19.000+08:00
diff --git a/R/summariseByExon.R b/R/summariseByExon.R
@@ -0,0 +1,76 @@
+#' Summarise transcript expression to exon-level expression
+#' @title summarise by exon
+#' @param se a \code{SummarizedExperiment} object from \code{\link{bambu}}
+#' @return A data.table with columns: exon_id, seqnames, start, end, strand,
+#'   GENEID, and one count column per sample
+#' @details Counts are summed across all transcripts that share the same exon
+#'   (defined by identical seqnames, start, end, and strand). The returned
+#'   counts therefore represent the total evidence attributed to each unique
+#'   exonic locus across all overlapping transcripts.
+#' @import data.table
+#' @importFrom Matrix sparseMatrix
+#' @importFrom SummarizedExperiment assays rowRanges rowData
+#' @importFrom GenomicRanges seqnames start end strand
+#' @export
+summariseByExon <- function(se) {
+    # Unlist GRangesList: one row per exon-transcript combination
+    exonRanges <- unlist(rowRanges(se), use.names = TRUE)
+
+    # Build a data.table of exon-transcript pairs
+    txNames <- rownames(se)
+    exonDt <- data.table(
+        TXNAME   = names(exonRanges),
+        seqnames = as.character(seqnames(exonRanges)),
+        start    = start(exonRanges),
+        end      = end(exonRanges),
+        strand   = as.character(strand(exonRanges))
+    )
+
+    # Unique exon key: seqnames:start:end:strand
+    exonDt[, exon_id := paste(seqnames, start, end, strand, sep = ":")]
+
+    # Attach GENEID from rowData
+    geneDt <- data.table(
+        TXNAME = rownames(se),
+        GENEID = rowData(se)$GENEID
+    )
+    exonDt <- geneDt[exonDt, on = "TXNAME"]
+
+    # Collapse metadata per unique exon
+    exonMeta <- exonDt[, .(
+        seqnames = seqnames[1],
+        start    = start[1],
+        end      = end[1],
+        strand   = strand[1],
+        GENEID   = paste(sort(unique(GENEID)), collapse = ",")
+    ), by = exon_id]
+
+    # Build sparse binary matrix: unique_exons x transcripts
+    # entry [i, j] = 1 if transcript j contains unique exon i
+    uniqueExons <- exonMeta$exon_id
+    exonIdx <- match(exonDt$exon_id, uniqueExons)
+    txIdx   <- match(exonDt$TXNAME,  txNames)
+
+    exonTxMat <- sparseMatrix(
+        i    = exonIdx,
+        j    = txIdx,
+        x    = 1L,
+        dims = c(length(uniqueExons), length(txNames)),
+        dimnames = list(uniqueExons, txNames)
+    )
+
+    # Aggregate counts: unique_exons x samples
+    txCounts   <- assays(se)$counts
+    exonCounts <- exonTxMat %*% txCounts
+
+    # Combine metadata with aggregated counts
+    result <- cbind(
+        exonMeta,
+        as.data.table(as.matrix(exonCounts))
+    )
+
+    # Sort by genomic position
+    result <- result[order(seqnames, start, end)]
+
+    return(result)
+}