From 430783018cbfad69c6ff3a52479bf7b556b65247 Mon Sep 17 00:00:00 2001
From: Siyuan Liu <lsiyuan@google.com>
Date: Sun, 11 May 2025 21:58:33 -0700
Subject: [PATCH] [Bugfix][TPU] Use np array when updating cache slot_mapping
 (#17971)

Signed-off-by: Siyuan Liu <lsiyuan@google.com>
---
 vllm/v1/worker/tpu_model_runner.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index 983f8707a2455..687dabee22904 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -531,7 +531,7 @@ class TPUModelRunner(LoRAModelRunnerMixin):
         np.add(block_numbers * self.block_size,
                block_offsets,
                out=self.input_batch.block_table.
-               slot_mapping_cpu[:total_num_scheduled_tokens])
+               slot_mapping_np[:total_num_scheduled_tokens])
 
         # Prepare the attention metadata.
         self.query_start_loc_np[0] = 0