[Bugfix] Disable prefix caching by default for benchmark (#18771)

Signed-off-by: cascade812 <cascade812@outlook.com>
2026-06-09 21:15:41 +08:00 · 2025-05-27 17:18:09 -07:00 · 2025-05-27 17:18:09 -07:00 · 51e98e4ffd
commit 51e98e4ffd
parent e56f44d9ec
1 changed files with 1 additions and 1 deletions
--- a/vllm/benchmarks/latency.py
+++ b/vllm/benchmarks/latency.py
@ -82,7 +82,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
    parser = EngineArgs.add_cli_args(parser)
    # V1 enables prefix caching by default which skews the latency
    # numbers. We need to disable prefix caching by default.
-    parser.set_defaults(enable_prefix_caching=True)
+    parser.set_defaults(enable_prefix_caching=False)
 def main(args: argparse.Namespace):