New Retrieval Method: Extending Baseline with RM3

CodingTil · CodingTil · commit 02a0cace0ecd · 2023-10-12T09:42:49.000+02:00
diff --git a/py_css/main.py b/py_css/main.py
@@ -16,7 +16,7 @@ def setup() -> None:
     Set up the necessary configurations.
     """
     if not pt.started():
-        pt.init()
+        pt.init(boot_packages=["com.github.terrierteam:terrier-prf:-SNAPSHOT"])
 
 
 def main():
@@ -44,7 +44,7 @@ def main():
     global_args.add_argument(
         "--method",
         type=str,
-        choices=["baseline"],
+        choices=["baseline", "baseline-prf"],
         default="baseline",
         help="Set the retrieval method",
     )
@@ -56,6 +56,13 @@ def main():
         help="Parameters for baseline method as tuple (bm25_docs, mono_t5_docs, duo_t5_docs)",
     )
 
+    global_args.add_argument(
+        "--baseline-prf-params",
+        type=lambda s: tuple(map(int, s.split(","))),
+        default=(1000, 17, 26, 100, 10),
+        help="Parameters for baseline method as tuple (bm25_docs, rm3_fb_docs, rm3_fb_terms, mono_t5_docs, duo_t5_docs)",
+    )
+
     # Command argument
     parser.add_argument(
         "command",
@@ -109,6 +116,10 @@ def main():
             model_parameters = model_parameters_module.BaselineParameters.from_tuple(
                 args.baseline_params
             )
+        case "baseline-prf":
+            model_parameters = model_parameters_module.BaselinePRFParameters.from_tuple(
+                args.baseline_prf_params
+            )
         case _:
             raise NotImplementedError
 
diff --git a/py_css/models/T5Rewriter.py b/py_css/models/T5Rewriter.py
@@ -1,6 +1,6 @@
 import string
 import logging
-from typing import List, Any, Callable
+from typing import List, Any, Callable, Optional
 
 import pyterrier as pt
 import pandas as pd
@@ -12,6 +12,8 @@
 NUM_BEAMS: int = 10
 EARLY_STOPPING: bool = True
 
+COPY_REWRITTEN_QUERY_COLUMN: str = "rewritten_query"
+
 
 class T5Rewriter(pt.Transformer):
     """
@@ -31,7 +33,10 @@ class T5Rewriter(pt.Transformer):
     tokenizer: T5Tokenizer
     model: T5ForConditionalGeneration
 
-    def __init__(self, index):
+    def __init__(self):
+        """
+        Constructs all the necessary attributes for the T5 Query Rewriter.
+        """
         self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         self.tokenizer = T5Tokenizer.from_pretrained(MODEL_NAME)
         self.model = (
@@ -99,7 +104,7 @@ def __remove_punctuation(self, s):
 
     def transform(self, topics_or_res: pd.DataFrame) -> pd.DataFrame:
         # save qid and query columns as dict (qid -> query) query is same for same qid, so sufficient to select first
-        qid_query_dict = dict(zip(topics_or_res["qid"], topics_or_res["query"]))
+        rewritten_queries_df = topics_or_res[["qid", "query"]].drop_duplicates()
 
         pipeline: List[Callable] = [
             self.__split_query_tokenize_join,
@@ -109,18 +114,21 @@ def transform(self, topics_or_res: pd.DataFrame) -> pd.DataFrame:
             self.__remove_punctuation,
         ]
 
-        rewritten_queries = {
-            qid: _call_list_of_functions(q, pipeline)
-            for qid, q in qid_query_dict.items()
-        }
+        rewritten_queries_df["query"] = rewritten_queries_df["query"].apply(
+            lambda q: _call_list_of_functions(q, pipeline)
+        )
+
         # overwrite the query column with the decoded output token ids
-        topics_or_res["query"] = topics_or_res["qid"].map(
-            lambda qid: rewritten_queries[qid]
+        rewritten_queries_df.merge(
+            pt.model.push_queries(topics_or_res, "query"), on="qid"
         )
+        rewritten_queries_df[COPY_REWRITTEN_QUERY_COLUMN] = rewritten_queries_df[
+            "query"
+        ]
 
-        logging.info(f"Rewritten queries: {topics_or_res['query'].unique()}")
+        logging.info(f"Rewritten queries: {rewritten_queries_df['query'].unique()}")
 
-        return topics_or_res
+        return rewritten_queries_df
 
 
 def _call_list_of_functions(x: Any, pipeline: List[Callable]) -> Any:
diff --git a/py_css/models/base.py b/py_css/models/base.py
@@ -3,8 +3,9 @@
 import logging
 from typing import Optional, List, Tuple, TypeAlias
 
+import models.T5Rewriter as t5_rewriter_module
+
 import pandas as pd
-import pyterrier as pt
 
 
 @dataclass
@@ -187,7 +188,12 @@ def search(self, query: Query, context: Context) -> Tuple[Context, pd.DataFrame]
         query_df = pd.DataFrame([{"qid": query.query_id, "query": query_str}])
         result = self.transform(query_df)
 
-        query.query = result["query"].iloc[0]
+        if t5_rewriter_module.COPY_REWRITTEN_QUERY_COLUMN in result.columns:
+            query.query = result[t5_rewriter_module.COPY_REWRITTEN_QUERY_COLUMN].iloc[0]
+            print("QUERY COMES FROM REWRITER")
+        else:
+            query.query = result["query"].iloc[0]
+            print("QUERY COMES FROM ORIGINAL?!?!?!?!")
 
         doc_list: List[Document] = []
         for _, entry in result.iterrows():
@@ -221,8 +227,14 @@ def batch_search(
         )
         result = self.transform(query_df)
 
-        for query, _ in inputs:
-            query.query = result[result["qid"] == query.query_id]["query"].iloc[0]
+        if t5_rewriter_module.COPY_REWRITTEN_QUERY_COLUMN in result.columns:
+            for query, _ in inputs:
+                query.query = result[result["qid"] == query.query_id][
+                    t5_rewriter_module.COPY_REWRITTEN_QUERY_COLUMN
+                ].iloc[0]
+        else:
+            for query, _ in inputs:
+                query.query = result[result["qid"] == query.query_id]["query"].iloc[0]
 
         contexts: List[Context] = []
         for query, context in inputs:
diff --git a/py_css/models/baseline.py b/py_css/models/baseline.py
@@ -11,22 +11,19 @@
 class Baseline(base_module.Pipeline):
     """
     A class to represent the baseline retrieval method.
-
-    Attributes
-    ----------
-    stages : List[Tuple[pt.Transformer, int]]
-        The stages of the pipeline.
     """
 
-    stages: List[Tuple[pt.Transformer, int]]
+    top_docs: Tuple[pt.Transformer, int]
+    mono_t5: Tuple[MonoT5ReRanker, int]
+    duo_t5: Tuple[DuoT5ReRanker, int]
 
     def __init__(
         self,
         index,
         *,
-        bm25_docs,
-        mono_t5_docs,
-        duo_t5_docs,
+        bm25_docs: int,
+        mono_t5_docs: int,
+        duo_t5_docs: int,
     ):
         """
         Constructs all the necessary attributes for the baseline retrieval method.
@@ -42,18 +39,11 @@ def __init__(
         duo_t5_docs : int
             The number of documents to retrieve with DuoT5.
         """
-        t5_qr = t5_rewriter.T5Rewriter(index)
+        t5_qr = t5_rewriter.T5Rewriter()
         bm25 = pt.BatchRetrieve(index, wmodel="BM25", metadata=["docno", "text"])
-        mono_t5 = MonoT5ReRanker()
-        duo_t5 = DuoT5ReRanker()
-
-        top_docs = t5_qr >> bm25
-
-        self.stages = [
-            (top_docs, bm25_docs),
-            (mono_t5, mono_t5_docs),
-            (duo_t5, duo_t5_docs),
-        ]
+        self.top_docs = (t5_qr >> bm25, bm25_docs)
+        self.mono_t5 = (MonoT5ReRanker(), mono_t5_docs)
+        self.duo_t5 = (DuoT5ReRanker(), duo_t5_docs)
 
     def transform_input(
         self, query: base_module.Query, context: base_module.Context
@@ -70,21 +60,29 @@ def transform_input(
         return new_query
 
     def transform(self, query_df: pd.DataFrame) -> pd.DataFrame:
-        # We basically do the pyterrier Concatenate transformer operator here, but more efficiently, since we dont have to do the entire pipeline for each component of the operator.
-        results = []
-        current_df = query_df
+        top_docs_df = self.top_docs[0].transform(query_df)
+        top_docs_df = (
+            top_docs_df.sort_values(["qid", "score"], ascending=False)
+            .groupby("qid")
+            .head(self.top_docs[1])
+        )
 
-        is_first: bool = True
+        mono_t5_df = self.mono_t5[0].transform(
+            top_docs_df.groupby("qid").head(self.mono_t5[1])
+        )
+        mono_t5_df = (
+            mono_t5_df.sort_values(["qid", "score"], ascending=False)
+            .groupby("qid")
+            .head(self.mono_t5[1])
+        )
 
-        for stage, num_docs in self.stages:
-            df = current_df
-            if not is_first:
-                df = df.groupby("qid").head(num_docs)
-            else:
-                is_first = False
-            transformed_df = stage.transform(df)
-            transformed_df = transformed_df.groupby("qid").head(num_docs)
-            results.append(transformed_df)
-            current_df = transformed_df
+        duo_t5_df = self.duo_t5[0].transform(
+            mono_t5_df.groupby("qid").head(self.duo_t5[1])
+        )
+        duo_t5_df = (
+            duo_t5_df.sort_values(["qid", "score"], ascending=False)
+            .groupby("qid")
+            .head(self.duo_t5[1])
+        )
 
-        return self.combine_result_stages(results)
+        return self.combine_result_stages([top_docs_df, mono_t5_df, duo_t5_df])
diff --git a/py_css/models/baseline_prf.py b/py_css/models/baseline_prf.py
@@ -0,0 +1,103 @@
+import models.base as base_module
+import models.T5Rewriter as t5_rewriter
+
+from typing import List, Tuple
+
+import pandas as pd
+import pyterrier as pt
+from pyterrier_t5 import MonoT5ReRanker, DuoT5ReRanker
+
+
+class BaselinePRF(base_module.Pipeline):
+    """
+    A class to represent the method that extends the baseline retrieval method with pseudo relevance feedback.
+    """
+
+    t5_qr: t5_rewriter.T5Rewriter
+    top_docs: Tuple[pt.Transformer, int]
+    mono_t5: Tuple[MonoT5ReRanker, int]
+    duo_t5: Tuple[DuoT5ReRanker, int]
+
+    def __init__(
+        self,
+        index,
+        *,
+        bm25_docs: int,
+        rm3_fb_docs: int,
+        rm3_fb_terms: int,
+        mono_t5_docs: int,
+        duo_t5_docs: int,
+    ):
+        """
+        Constructs all the necessary attributes for the baseline retrieval method.
+
+        Parameters
+        ----------
+        index : pt.Index
+            The PyTerrier index.
+        bm25_docs : int
+            The number of documents to retrieve with BM25.
+        rm3_fb_docs : int
+            The number of documents to use for RM3.
+        rm3_fb_terms : int
+            The number of terms to use for RM3.
+        mono_t5_docs : int
+            The number of documents to retrieve with MonoT5.
+        duo_t5_docs : int
+            The number of documents to retrieve with DuoT5.
+        """
+        self.t5_qr = t5_rewriter.T5Rewriter()
+        bm25 = pt.BatchRetrieve(index, wmodel="BM25", metadata=["docno", "text"])
+        rm3 = pt.rewrite.RM3(index, fb_docs=rm3_fb_docs, fb_terms=rm3_fb_terms)
+        self.top_docs = ((bm25 % rm3_fb_docs) >> rm3 >> bm25, bm25_docs)
+        self.mono_t5 = (MonoT5ReRanker(), mono_t5_docs)
+        self.duo_t5 = (DuoT5ReRanker(), duo_t5_docs)
+
+    def transform_input(
+        self, query: base_module.Query, context: base_module.Context
+    ) -> str:
+        history = []
+        for q, _ in context:
+            history.append(q.query)
+        if len(context) > 0:
+            last_docs = context[-1][1]
+            if last_docs is not None:
+                history.append(last_docs[0].content)
+        history.append(query.query)
+        new_query = " <sep> ".join(history)
+        return new_query
+
+    def transform(self, query_df: pd.DataFrame) -> pd.DataFrame:
+        rewritten_queries_df = self.t5_qr.transform(query_df)
+
+        top_docs_df = self.top_docs[0].transform(rewritten_queries_df.copy())
+        top_docs_df = (
+            top_docs_df.sort_values(["qid", "score"], ascending=False)
+            .groupby("qid")
+            .head(self.top_docs[1])
+        )
+
+        # Now add in the rewritten queries to the top docs
+        top_docs_df = top_docs_df.merge(rewritten_queries_df, on="qid", how="left")
+        # And overwrite the "query" column again
+        top_docs_df["query"] = top_docs_df[t5_rewriter.COPY_REWRITTEN_QUERY_COLUMN]
+
+        mono_t5_df = self.mono_t5[0].transform(
+            top_docs_df.groupby("qid").head(self.mono_t5[1])
+        )
+        mono_t5_df = (
+            mono_t5_df.sort_values(["qid", "score"], ascending=False)
+            .groupby("qid")
+            .head(self.mono_t5[1])
+        )
+
+        duo_t5_df = self.duo_t5[0].transform(
+            mono_t5_df.groupby("qid").head(self.duo_t5[1])
+        )
+        duo_t5_df = (
+            duo_t5_df.sort_values(["qid", "score"], ascending=False)
+            .groupby("qid")
+            .head(self.duo_t5[1])
+        )
+
+        return self.combine_result_stages([top_docs_df, mono_t5_df, duo_t5_df])
diff --git a/py_css/models/model_parameters.py b/py_css/models/model_parameters.py