[Bugfix][benchmarks] Fix input token calculation for rerank benchmark metrics (#30596)

Signed-off-by: vensen <vensenmu@gmail.com>
2025-12-24 16:35:55 +08:00 · 2025-12-14 22:57:15 +08:00 · 2025-12-14 22:57:15 +08:00 · add4b0ca44
commit add4b0ca44
parent ae88aada38
3 changed files with 7 additions and 2 deletions
--- a/vllm/benchmarks/serve.py
+++ b/vllm/benchmarks/serve.py
@ -235,7 +235,9 @@ async def get_request(


 def calculate_metrics_for_embeddings(
-    outputs: list[RequestFuncOutput], dur_s: float, selected_percentiles: list[float]
+    outputs: list[RequestFuncOutput],
+    dur_s: float,
+    selected_percentiles: list[float],
 ) -> EmbedBenchmarkMetrics:
    """Calculate the metrics for the embedding requests.

--- a/vllm/entrypoints/pooling/score/protocol.py
+++ b/vllm/entrypoints/pooling/score/protocol.py
@ -120,6 +120,7 @@ class RerankResult(BaseModel):


 class RerankUsage(BaseModel):
+    prompt_tokens: int
    total_tokens: int


--- a/vllm/entrypoints/pooling/score/serving.py
+++ b/vllm/entrypoints/pooling/score/serving.py
@ -502,5 +502,7 @@ class ServingScores(OpenAIServing):
            id=request_id,
            model=model_name,
            results=results,
-            usage=RerankUsage(total_tokens=num_prompt_tokens),
+            usage=RerankUsage(
+                total_tokens=num_prompt_tokens, prompt_tokens=num_prompt_tokens
+            ),
        )