From 51e98e4ffd696289bce1ec92c78cc7298dc1600b Mon Sep 17 00:00:00 2001
From: cascade <cascade812@outlook.com>
Date: Tue, 27 May 2025 17:18:09 -0700
Subject: [PATCH] [Bugfix] Disable prefix caching by default for benchmark
 (#18771)

Signed-off-by: cascade812 <cascade812@outlook.com>
---
 vllm/benchmarks/latency.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/benchmarks/latency.py b/vllm/benchmarks/latency.py
index 2c992727b139..0dd938e75129 100644
--- a/vllm/benchmarks/latency.py
+++ b/vllm/benchmarks/latency.py
@@ -82,7 +82,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
     parser = EngineArgs.add_cli_args(parser)
     # V1 enables prefix caching by default which skews the latency
     # numbers. We need to disable prefix caching by default.
-    parser.set_defaults(enable_prefix_caching=True)
+    parser.set_defaults(enable_prefix_caching=False)
 
 
 def main(args: argparse.Namespace):