remove debug log

Wanglongzhi2001 · Wanglongzhi2001 · commit d5b6499a94b6 · 2025-01-09T07:32:44.000Z
diff --git a/llm/server/server/engine/infer.py b/llm/server/server/engine/infer.py
@@ -69,7 +69,6 @@ def __init__(self, args):
         self.init_inputs()
 
         # whether use speculate decoding
-        logger.info(f'speculate_method: {self.config.speculate_method}')
         if self.config.speculate_method is not None:
             if self.config.speculate_method == "inference_with_reference":
                 self.proposer = InferenceWithReferenceProposer(
@@ -279,7 +278,6 @@ def init_inputs(self):
             self.share_inputs["ori_seq_lens_encoder"] = paddle.full(
                 shape=[self.args.max_batch_size, 1], fill_value=0, dtype="int32")
         # speculate decoding input
-        logger.info(f'Speculative method: {self.config.speculate_method}')
         if self.config.speculate_method is not None:
             self.share_inputs["accept_tokens"] = paddle.full(
                 shape=[self.args.max_batch_size, self.model_cfg["speculate_max_draft_token_num"] + 1], fill_value=0, dtype="int64"
@@ -512,34 +510,16 @@ def run(self):
                 continue
 
             if self.proposer is not None:
-                logger.info("start run proposer")
-                logger.info(f'before draft_tokens: {self.share_inputs["draft_tokens"]}')
-
                 self.proposer.run(
                     self.share_inputs,
                     real_batch_size=self.args.max_batch_size,
                     seq_lens_this_time=self.share_inputs["seq_lens_this_time"],
                 )
-                logger.info(f'after draft_tokens: {self.share_inputs["draft_tokens"]}')
-                logger.info("finish run proposer")
-            # logger.info(f'input_ids: {self.share_inputs["input_ids"]}')
-            # logger.info(f'input_ids_cpu: {self.share_inputs["input_ids_cpu"]}')
-            # logger.info(f'seq_lens_this_time: {self.share_inputs["seq_lens_this_time"]}')
-            # logger.info(f'seq_lens_encoder: {self.share_inputs["seq_lens_encoder"]}')
-            # logger.info(f'seq_lens_decoder: {self.share_inputs["seq_lens_decoder"]}')
-            # logger.info(f'step_idx: {self.share_inputs["step_idx"]}')
-            # logger.info(f'next_tokens: {self.share_inputs["next_tokens"]}')
-            # logger.info(f'before block_tables: {self.share_inputs["block_tables"]}')
 
             self.infer_engine.predictor.run()
-            logger.info(f'after accept_tokens: {self.share_inputs["accept_tokens"]}')
-            logger.info(f'after accept_num: {self.share_inputs["accept_num"]}')
-            # logger.info(f'after block_tables: {self.share_inputs["block_tables"]}')
-
             self.share_inputs['infer_seed'].add_(infer_seed_increment)
             self.share_inputs['infer_seed'][:] %= self.MAX_INFER_SEED
             if self.free_list_len > 0:
-                logger.info(f'free_list_len > 0')
                 self.step_cuda(seq_lens_this_time)