fix: avoid instantiating an additional tokenizer (#548)

guicho271828 · web-flow · commit 05f0a91c3621 · 2026-02-16T16:30:47.000Z
diff --git a/mellea/backends/vllm.py b/mellea/backends/vllm.py
@@ -204,10 +204,6 @@ def __init__(
         # we store the engine args because we have to reset the engine with a different event loop. See _model .
         self.engine_args = engine_args
 
-        self._tokenizer: PreTrainedTokenizerBase = AutoTokenizer.from_pretrained(
-            self._hf_model_id
-        )  # type:ignore
-
     @property
     def _model(self) -> vllm.AsyncLLMEngine:
         """Use model when making generation requests."""
@@ -231,6 +227,7 @@ def _model(self) -> vllm.AsyncLLMEngine:
             self._underlying_model = vllm.AsyncLLMEngine.from_engine_args(
                 vllm.AsyncEngineArgs(model=self._hf_model_id, **self.engine_args)
             )
+            self._tokenizer = self._underlying_model.get_tokenizer()
             self._event_loop = el
 
         return self._underlying_model
@@ -299,7 +296,7 @@ async def _generate_from_context_standard(
                 FancyLogger.get_logger().info(f"Tools for call: {tools.keys()}")
 
             input_str: str = self._tokenizer.apply_chat_template(  # type: ignore
-                ctx_as_chat,
+                ctx_as_chat,  # type: ignore
                 tokenize=False,
                 tools=convert_tools_to_json(tools),  # type: ignore
             )