[Bugfix] Prevent IndexError for cached requests when pipeline parallelism is disabled (#20486)

Signed-off-by: Peter Pan <Peter.Pan@daocloud.io>
2026-01-04 07:26:31 +08:00 · 2025-07-08 00:41:15 +08:00 · 2025-07-08 00:41:15 +08:00 · edd270bc78
commit edd270bc78
parent 110df74332
1 changed files with 2 additions and 0 deletions
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@ -635,6 +635,8 @@ class Scheduler(SchedulerInterface):
                token_ids = req.all_token_ids[req.num_computed_tokens:req.
                                              num_computed_tokens + num_tokens]
                new_token_ids.append(token_ids)
+            else:
+                new_token_ids.append([])
            new_block_ids.append(req_to_new_block_ids[req_id])
            num_computed_tokens.append(req.num_computed_tokens)
        # Because resumed_reqs is usually empty, it is more efficient to do