update

Wanglongzhi2001 · Wanglongzhi2001 · commit 934e8d846e42 · 2025-01-09T07:33:42.000Z
diff --git a/llm/server/server/engine/config.py b/llm/server/server/engine/config.py
@@ -19,7 +19,7 @@
 
 from paddlenlp.generation import GenerationConfig
 from server.utils import model_server_logger
-
+from dataclasses import dataclass
 
 class Config:
     """
@@ -203,6 +203,26 @@ def get_model_config(self):
         model_config_json = json.load(open(self.model_config_path, 'r', encoding='utf-8'))
         return model_config_json
 
+    def get_speculate_config(self):
+        """
+        get speculate_decoding related config
+
+        Returns:
+            SpeculateConfig: the speculate related config
+        """
+        speculate_config = SpeculateConfig()
+        if self.model_cfg.get("speculate_method") is not None:
+            speculate_config.speculate_method = self.model_cfg["speculate_method"]
+            speculate_config.speculate_max_draft_token_num = self.model_cfg[
+                "speculate_max_draft_token_num"]
+            speculate_config.speculate_max_ngram_size = self.model_cfg[
+                "speculate_max_ngram_size"]
+
+        if speculate_config.speculate_method is not in ["none", "inference_with_reference"]:
+            model_server_logger.error(f"Unsupport speculate method: {speculate_config.speculate_method}")
+
+        return speculate_config
+
     def read_from_config(self):
         """
         reset model config from json file
@@ -234,3 +254,10 @@ def get_unique_name(self, name):
 
     def __str__(self) -> str:
         return json.dumps(self.__dict__, indent=4)
+
+
+@dataclass
+class SpeculateConfig:
+    speculate_method: str = None
+    speculate_max_draft_token_num: int = 1
+    speculate_max_ngram_size: int = 1
diff --git a/llm/server/server/engine/infer.py b/llm/server/server/engine/infer.py
@@ -26,7 +26,7 @@
 import paddle.distributed as dist
 import paddle.distributed.fleet as fleet
 from paddlenlp.trl.llm_utils import get_rotary_position_embedding
-from paddlenlp_ops import step_paddle, speculate_step_paddle
+from paddlenlp_ops import step_paddle
 from server.data.processor import DataProcessor
 from server.engine.config import Config
 from paddlenlp.experimental.transformers import InferenceWithReferenceProposer
@@ -47,7 +47,8 @@ def __init__(self, args):
 
         self.config = Config()
         self.model_cfg = self.config.get_model_config()
-        self.is_speculate_decoding = self.model_cfg.get("speculate_method") is not None
+        self.speculate_config = self.config.get_speculate_config()
+        self.is_speculate_decoding = self.speculate_config.speculate_method is not None
         self.format_print_configuration()
 
         self.args.num_layers = self.get_value(self.model_cfg, ["num_hidden_layers", "num_layers"])
@@ -70,15 +71,13 @@ def __init__(self, args):
         self.init_inputs()
 
         if self.is_speculate_decoding:
-            logger.info(f'Using speculating decoding, method: {self.model_cfg["speculate_method"]}.')
-            if self.model_cfg["speculate_method"] == "inference_with_reference":
+            logger.info(f'Using speculating decoding, method: {self.speculate_config.speculate_method}.')
+            if self.speculate_config.speculate_method == "inference_with_reference":
                 self.proposer = InferenceWithReferenceProposer(
-                    self.model_cfg["speculate_max_draft_token_num"],
-                    self.model_cfg["speculate_max_ngram_size"],
+                    self.speculate_config.speculate_max_draft_token_num,
+                    self.speculate_config.speculate_max_ngram_size,
                     self.args.max_batch_size,
                     self.args.max_seq_len)
-            else:
-                raise NotImplementedError(f'Not support {self.model_cfg["speculate_method"]}, only support inference_with_reference now.')
         else:
             self.proposer = None
 
@@ -281,14 +280,14 @@ def init_inputs(self):
         # speculate decoding input
         if self.is_speculate_decoding:
             self.share_inputs["accept_tokens"] = paddle.full(
-                shape=[self.args.max_batch_size, self.model_cfg["speculate_max_draft_token_num"] + 1], fill_value=0, dtype="int64"
+                shape=[self.args.max_batch_size, self.speculate_config.speculate_max_draft_token_num + 1], fill_value=0, dtype="int64"
             )
             self.share_inputs["accept_num"] = paddle.full(shape=[self.args.max_batch_size], fill_value=0, dtype="int32")
             self.share_inputs["draft_tokens"] = paddle.full(
-                shape=[self.args.max_batch_size, self.model_cfg["speculate_max_draft_token_num"] + 1], fill_value=0, dtype="int64"
+                shape=[self.args.max_batch_size, self.speculate_config.speculate_max_draft_token_num + 1], fill_value=0, dtype="int64"
             )
             self.share_inputs["actual_draft_token_num"] = paddle.full(
-                shape=[self.args.max_batch_size], fill_value=self.model_cfg["speculate_max_draft_token_num"], dtype="int32"
+                shape=[self.args.max_batch_size], fill_value=self.speculate_config.speculate_max_draft_token_num, dtype="int32"
             )
 
     def dy_input_preprocess(self, tasks):
@@ -347,42 +346,33 @@ def dy_input_preprocess(self, tasks):
                                                         task["stop_seqs"], dtype="int64")
 
             if self.is_speculate_decoding:
-                self.share_inputs["draft_tokens"][idx:idx + 1] = np.zeros([self.model_cfg["speculate_max_draft_token_num"] + 1])
-                self.share_inputs["actual_draft_token_num"][idx:idx + 1] = np.array([self.model_cfg["speculate_max_draft_token_num"]])
+                self.share_inputs["draft_tokens"][idx:idx + 1] = np.zeros([self.speculate_config.speculate_max_draft_token_num + 1])
+                self.share_inputs["actual_draft_token_num"][idx:idx + 1] = np.array([self.speculate_config.speculate_max_draft_token_num])
 
     def step_cuda(self, seq_lens_this_time):
         """
         step cuda
         """
-        if not self.is_speculate_decoding:
-            step_paddle(self.share_inputs['stop_flags'], seq_lens_this_time,
-                        self.share_inputs['step_seq_lens_encoder'],
-                        self.share_inputs['seq_lens_encoder'],
-                        self.share_inputs['seq_lens_decoder'], self.share_inputs["block_tables"],
-                        self.share_inputs['encoder_block_lens'],
-                        self.share_inputs["is_block_step"], self.share_inputs['step_block_list'],
-                        self.share_inputs['step_lens'], self.share_inputs['recover_block_list'],
-                        self.share_inputs['recover_lens'], self.share_inputs['need_block_list'],
-                        self.share_inputs['need_block_len'], self.share_inputs['used_list_len'],
-                        self.share_inputs['free_list'], self.share_inputs['free_list_len'],
-                        self.share_inputs['input_ids'], self.share_inputs['pre_ids'],
-                        self.share_inputs['step_idx'], self.share_inputs['next_tokens'],
-                        self.args.block_size, self.args.enc_dec_block_num, self.args.first_token_id)
+        # whether speculate decoding
+        if self.is_speculate_decoding:
+            speculate_step_token_num = self.speculate_config.speculate_max_draft_token_num + 1
         else:
-            speculate_step_paddle(self.share_inputs['stop_flags'], seq_lens_this_time,
-                                  self.share_inputs['step_seq_lens_encoder'],
-                                  self.share_inputs['seq_lens_encoder'],
-                                  self.share_inputs['seq_lens_decoder'], self.share_inputs["block_tables"],
-                                  self.share_inputs['encoder_block_lens'],
-                                  self.share_inputs["is_block_step"], self.share_inputs['step_block_list'],
-                                  self.share_inputs['step_lens'], self.share_inputs['recover_block_list'],
-                                  self.share_inputs['recover_lens'], self.share_inputs['need_block_list'],
-                                  self.share_inputs['need_block_len'], self.share_inputs['used_list_len'],
-                                  self.share_inputs['free_list'], self.share_inputs['free_list_len'],
-                                  self.share_inputs['input_ids'], self.share_inputs['pre_ids'],
-                                  self.share_inputs['step_idx'], self.share_inputs['next_tokens'],
-                                  self.args.block_size, self.args.enc_dec_block_num, self.args.first_token_id,
-                                  self.model_cfg["speculate_max_draft_token_num"])
+            speculate_step_token_num = 0
+
+        step_paddle(self.share_inputs['stop_flags'], seq_lens_this_time,
+                    self.share_inputs['step_seq_lens_encoder'],
+                    self.share_inputs['seq_lens_encoder'],
+                    self.share_inputs['seq_lens_decoder'], self.share_inputs["block_tables"],
+                    self.share_inputs['encoder_block_lens'],
+                    self.share_inputs["is_block_step"], self.share_inputs['step_block_list'],
+                    self.share_inputs['step_lens'], self.share_inputs['recover_block_list'],
+                    self.share_inputs['recover_lens'], self.share_inputs['need_block_list'],
+                    self.share_inputs['need_block_len'], self.share_inputs['used_list_len'],
+                    self.share_inputs['free_list'], self.share_inputs['free_list_len'],
+                    self.share_inputs['input_ids'], self.share_inputs['pre_ids'],
+                    self.share_inputs['step_idx'], self.share_inputs['next_tokens'],
+                    self.args.block_size, self.args.enc_dec_block_num, self.args.first_token_id
+                    speculate_step_token_num)
 
     def initialize_engine_ready_check_flag(self):
         """