[Bugfix][TPU] Use np array when updating cache slot_mapping (#17971)

Signed-off-by: Siyuan Liu <lsiyuan@google.com>
2025-12-16 11:16:45 +08:00 · 2025-05-11 21:58:33 -07:00 · 2025-05-11 21:58:33 -07:00 · 430783018c
commit 430783018c
parent 19a3c78d1f
1 changed files with 1 additions and 1 deletions
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@ -531,7 +531,7 @@ class TPUModelRunner(LoRAModelRunnerMixin):
        np.add(block_numbers * self.block_size,
               block_offsets,
               out=self.input_batch.block_table.
-               slot_mapping_cpu[:total_num_scheduled_tokens])
+               slot_mapping_np[:total_num_scheduled_tokens])

        # Prepare the attention metadata.
        self.query_start_loc_np[0] = 0