[Misc] Minor patch for draft model runner (#6523)

2026-08-03 16:37:07 +08:00 · 2024-07-17 23:06:21 -07:00 · 2024-07-17 23:06:21 -07:00 · 8a74c68bd1
commit 8a74c68bd1
parent 61e592747c
1 changed files with 6 additions and 2 deletions
--- a/vllm/spec_decode/draft_model_runner.py
+++ b/vllm/spec_decode/draft_model_runner.py
@ -15,8 +15,12 @@ from vllm.worker.model_runner import (ModelInputForGPUWithSamplingMetadata,

 logger = init_logger(__name__)

+# A flag to enable debug prints for the updated input tensors
+# before each step.
 debug_advance_input = False
-enable_gpu_advance_step = True
+# A flag to allow GPU advance step for draft model runner.
+# Set to False for debugging.
+allow_gpu_advance_step = True


 class TP1DraftModelRunner(ModelRunner):
@ -196,7 +200,7 @@ class TP1DraftModelRunner(ModelRunner):
            3. No LORA
            4. No prompt_adapter_config
        """
-        if not enable_gpu_advance_step:
+        if not allow_gpu_advance_step:
            return False

        # We allow multi-step GPU only in decode mode