specify in server to not preprocess data

isabelizimm · isabelizimm · commit f0f52ae83b21 · 2023-01-24T10:50:25.000-05:00
diff --git a/vetiver/handlers/spacy.py b/vetiver/handlers/spacy.py
@@ -60,15 +60,7 @@ def handler_predict(self, input_data, check_prototype):
 
         response_body = []
 
-        for dic in input_data:
-            doc = self.model(dic.text)
+        for doc in self.model.pipe(input_data.text):
             response_body.append(doc.to_json())
 
         return pd.Series(response_body)
-
-
-# def get_data(doc):
-#     ents = [
-#         doc.to_dict()
-#     ]
-#     return {"text": doc.text, "ents": ents}
diff --git a/vetiver/server.py b/vetiver/server.py
@@ -12,6 +12,7 @@
 
 from .utils import _jupyter_nb
 from .vetiver_model import VetiverModel
+from .handlers.spacy import SpacyHandler
 from .meta import VetiverMeta
 
 
@@ -173,6 +174,8 @@ async def custom_endpoint(
 
                 if isinstance(input_data, List):
                     served_data = _batch_data(input_data)
+                elif isinstance(self.model.translator, SpacyHandler):
+                    served_data = input_data
                 else:
                     served_data = _prepare_data(input_data)
 
diff --git a/vetiver/tests/test_spacy.py b/vetiver/tests/test_spacy.py
@@ -26,9 +26,8 @@ def animal_component_function(doc):
     matcher = spacy.matcher.PhraseMatcher(nlp.vocab)
     matcher.add("ANIMAL", animals)
     nlp.add_pipe("animals")
-    df = pd.DataFrame({"text": ["i have a dog", "my turtle is smarter than my dog"]})
 
-    return vetiver.VetiverModel(nlp, "animals", prototype_data=df)
+    return vetiver.VetiverModel(nlp, "animals")
 
 
 @pytest.fixture
@@ -42,23 +41,13 @@ def vetiver_client(spacy_model):  # With check_prototype=True
 
 @pytest.fixture
 def vetiver_client_check_ptype_false(spacy_model):  # With check_prototype=False
-    app = vetiver.VetiverAPI(spacy_model, check_prototype=False)
+    app = vetiver.VetiverAPI(spacy_model, check_prototype=True)
     app.app.root_path = "/predict"
     client = TestClient(app.app)
 
     return client
 
 
-def test_vetiver_build(spacy_model):
-
-    df = pd.DataFrame({"text": ["i have a dog", "my turtle is smarter than my dog"]})
-
-    response = spacy_model.handler_predict(df, True)
-
-    assert isinstance(response, pd.Series)
-    assert response.iloc[0].ents == ("dog",)
-
-
 def test_vetiver_post(vetiver_client):
     df = pd.DataFrame({"text": ["one", "my turtle is smarter than my dog"]})
 
@@ -68,53 +57,38 @@ def test_vetiver_post(vetiver_client):
     assert response.to_dict() == {
         "predict": {
             0: {
-                "text": "i have a dog",
-                "ents": [{"label": "ANIMAL", "start": 9, "end": 12}],
+                "text": "one",
+                "ents": [],
+                "sents": [{"start": 0, "end": 3}],
+                "tokens": [{"id": 0, "start": 0, "end": 3}],
             },
             1: {
                 "text": "my turtle is smarter than my dog",
                 "ents": [
-                    {"label": "ANIMAL", "start": 3, "end": 9},
-                    {"label": "ANIMAL", "start": 29, "end": 32},
+                    {"start": 3, "end": 9, "label": "ANIMAL"},
+                    {"start": 29, "end": 32, "label": "ANIMAL"},
+                ],
+                "tokens": [
+                    {"id": 0, "start": 0, "end": 2},
+                    {"id": 1, "start": 3, "end": 9},
+                    {"id": 2, "start": 10, "end": 12},
+                    {"id": 3, "start": 13, "end": 20},
+                    {"id": 4, "start": 21, "end": 25},
+                    {"id": 5, "start": 26, "end": 28},
+                    {"id": 6, "start": 29, "end": 32},
                 ],
             },
         }
     }
 
 
-# def test_batch(vetiver_client):
-#     nlp = spacy.blank("en")
-#     words1 = "This is a new"
-#     doc1 = spacy.tokens.Doc(nlp.vocab, words=words1)
-#     words2 = ["Another", "one", "."]
-#     doc2 = spacy.tokens.Doc(nlp.vocab, words=words2)
-
-#     response = vetiver.predict(endpoint=vetiver_client, data=[doc1, doc2])
-
-#     assert response == [[True, False, False, False, False, False], [True, False, False]]
-
-
-# def test_no_ptype(vetiver_client_check_ptype_false):
-#     nlp = spacy.blank("en")
-#     words1 = ["This", "is", "a", "new", "Sentence", "."]
-#     doc1 = spacy.tokens.Doc(nlp.vocab, words=words1)
-#     words2 = ["Another", "one", "."]
-#     doc2 = spacy.tokens.Doc(nlp.vocab, words=words2)
-
-#     response = vetiver.predict(
-#         endpoint=vetiver_client_check_ptype_false, data=[doc1, doc2]
-#     )
-
-#     assert response == [[True, False, False, False, False, False], [True, False, False]]
-
-
-# def test_serialize(spacy_model):
-#     import pins
+def test_serialize(spacy_model):
+    import pins
 
-#     board = pins.board_temp(allow_pickle_read=True)
-#     vetiver.vetiver_pin_write(board=board, model=spacy_model)
-#     assert isinstance(
-#         board.pin_read("sentencizer"),
-#         spacy.pipeline.sentencizer.Sentencizer,
-#     )
-#     board.pin_delete("sentencizer")
+    board = pins.board_temp(allow_pickle_read=True)
+    vetiver.vetiver_pin_write(board=board, model=spacy_model)
+    assert isinstance(
+        board.pin_read("animals"),
+        spacy.Language,
+    )
+    board.pin_delete("animals")
diff --git a/vetiver/vetiver_model.py b/vetiver/vetiver_model.py
@@ -86,6 +86,7 @@ def __init__(
         translator = create_handler(model, prototype_data)
 
         self.model = translator.model
+        self.translator = type(translator)
         self.prototype = translator.construct_prototype()
         self.model_name = model_name
         self.description = description if description else translator.describe()
@@ -102,6 +103,7 @@ def from_pin(cls, board, name: str, version: str = None):
         if "vetiver_meta" in meta.user:
             get_prototype = meta.user.get("vetiver_meta").get("prototype", None)
             required_pkgs = meta.user.get("vetiver_meta").get("required_pkgs", None)
+            python_version = meta.user.get("vetiver_meta").get("python_version", None)
             meta.user.pop("vetiver_meta")
         else:
             # ptype = meta.user.get("ptype", None)
@@ -113,6 +115,7 @@ def from_pin(cls, board, name: str, version: str = None):
             #     get_prototype = None
 
             required_pkgs = meta.user.get("required_pkgs")
+            python_version = meta.user.get("python_version")
 
         return cls(
             model=model,
@@ -123,6 +126,7 @@ def from_pin(cls, board, name: str, version: str = None):
                 "version": meta.version.version,
                 "url": meta.local.get("url"),  # None all the time, besides Connect,
                 "required_pkgs": required_pkgs,
+                "python_version": python_version,
             },
             prototype_data=json.loads(get_prototype) if get_prototype else None,
             versioned=True,