[Hybrid allocator + kv connector] revert connector test changes related to hybrid allocator (#28011)

Signed-off-by: KuntaiDu <kuntai@uchicago.edu>
2026-03-16 15:47:22 +08:00 · 2025-11-05 02:36:31 -08:00 · 2025-11-05 02:36:31 -08:00 · 86dca07d9b
commit 86dca07d9b
parent 16b37f3119
8 changed files with 0 additions and 19 deletions
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@ -891,7 +891,6 @@ def test_kv_connector_basic():
    scheduler = create_scheduler(
        enable_prefix_caching=True,
        use_kv_connector=True,
-        disable_hybrid_kv_cache_manager=True,
    )
    NUM_TOTAL_BLOCKS = scheduler.kv_cache_manager.block_pool.get_num_free_blocks()
    BLOCK_SIZE = scheduler.cache_config.block_size
@ -1017,7 +1016,6 @@ def test_external_prefix_cache_metrics():
    scheduler = create_scheduler(
        enable_prefix_caching=False,
        use_kv_connector=True,
-        disable_hybrid_kv_cache_manager=True,
    )

    # Mock connector to simulate a partial external cache hit
@ -1082,7 +1080,6 @@ def test_kv_connector_unable_to_allocate():
        use_kv_connector=True,
        block_size=BLOCK_SIZE,
        num_blocks=NUM_BLOCKS,
-        disable_hybrid_kv_cache_manager=True,
    )
    NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE * 2
    scheduler.connector.get_num_new_matched_tokens = Mock(name="method")
@ -1166,7 +1163,6 @@ def test_kv_connector_handles_preemption():
        use_kv_connector=True,
        block_size=BLOCK_SIZE,
        num_blocks=NUM_BLOCKS,
-        disable_hybrid_kv_cache_manager=True,
    )

    NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE
@ -1383,7 +1379,6 @@ def create_scheduler_with_priority(
    block_size: int = 16,
    max_model_len: int | None = None,
    num_speculative_tokens: int | None = None,
-    disable_hybrid_kv_cache_manager: bool = False,
 ) -> Scheduler:
    """Create scheduler with priority policy enabled.

@ -1408,7 +1403,6 @@ def create_scheduler_with_priority(
        disable_chunked_mm_input=disable_chunked_mm_input,
        enable_chunked_prefill=True,
        policy="priority",  # Enable priority scheduling
-        disable_hybrid_kv_cache_manager=disable_hybrid_kv_cache_manager,
    )
    model_config = ModelConfig(
        model=model,
@ -2015,7 +2009,6 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv():
        num_blocks=5,  # Can hold 64 tokens (first block is null)
        block_size=16,  # Standard block size
        use_kv_connector=True,
-        disable_hybrid_kv_cache_manager=True,
    )

    # Create a request and schedule it
--- a/tests/v1/core/utils.py
+++ b/tests/v1/core/utils.py
@ -46,7 +46,6 @@ def create_scheduler(
    num_speculative_tokens: int | None = None,
    skip_tokenizer_init: bool = False,
    async_scheduling: bool = False,
-    disable_hybrid_kv_cache_manager: bool = False,
 ) -> Scheduler | AsyncScheduler:
    """Create scheduler under test.

@ -71,7 +70,6 @@ def create_scheduler(
        disable_chunked_mm_input=disable_chunked_mm_input,
        enable_chunked_prefill=True,
        async_scheduling=async_scheduling,
-        disable_hybrid_kv_cache_manager=disable_hybrid_kv_cache_manager,
    )
    model_config = ModelConfig(
        model=model,
--- a/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
+++ b/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
@ -136,7 +136,6 @@ run_tests_for_model() {
    vllm serve $model_name \
    --port $PORT \
    --enforce-eager \
-    --disable-hybrid-kv-cache-manager \
    --gpu-memory-utilization $GPU_MEMORY_UTILIZATION \
    --tensor-parallel-size $PREFILLER_TP_SIZE \
    --kv-transfer-config '$KV_CONFIG'"
@ -179,7 +178,6 @@ run_tests_for_model() {
    --port $PORT \
    --enforce-eager \
    --gpu-memory-utilization $GPU_MEMORY_UTILIZATION \
-    --disable-hybrid-kv-cache-manager \
    --kv-transfer-config '$KV_CONFIG'"
  
  # DP-EP attention mode
--- a/tests/v1/kv_connector/nixl_integration/run_edge_case_test.sh
+++ b/tests/v1/kv_connector/nixl_integration/run_edge_case_test.sh
@ -85,7 +85,6 @@ run_tests_for_model() {
  --port $PREFILL_PORT \
  --enforce-eager \
  --gpu-memory-utilization 0.2 \
-  --disable-hybrid-kv-cache-manager \
  --kv-transfer-config '$KV_CONFIG'"

  if [ -n "$model_args" ]; then
@ -104,7 +103,6 @@ run_tests_for_model() {
  --port $DECODE_PORT \
  --enforce-eager \
  --gpu-memory-utilization 0.2 \
-  --disable-hybrid-kv-cache-manager \
  --kv-transfer-config '$KV_CONFIG'"

  if [ -n "$model_args" ]; then
--- a/tests/v1/kv_connector/unit/test_multi_connector.py
+++ b/tests/v1/kv_connector/unit/test_multi_connector.py
@ -114,7 +114,6 @@ def test_multi_shared_storage_connector_consistency():
        enforce_eager=True,
        gpu_memory_utilization=0.5,
        kv_transfer_config=kv_transfer_config,
-        disable_hybrid_kv_cache_manager=True,
    )
    # Run generation - this should trigger saving KV cache
    _ = llm.generate(PROMPTS, SAMPLING_PARAMS)
--- a/tests/v1/kv_connector/unit/test_nixl_connector.py
+++ b/tests/v1/kv_connector/unit/test_nixl_connector.py
@ -1020,7 +1020,6 @@ def test_abort_timeout_on_prefiller(monkeypatch, distributed_executor_backend):
        "gpu_memory_utilization": 0.5,
        "kv_transfer_config": kv_transfer_config,
        "distributed_executor_backend": distributed_executor_backend,
-        "disable_hybrid_kv_cache_manager": True,
    }

    timeout = 6
--- a/tests/v1/kv_connector/unit/test_shared_storage_connector.py
+++ b/tests/v1/kv_connector/unit/test_shared_storage_connector.py
@ -132,7 +132,6 @@ def test_shared_storage_connector_hashes(tmp_path):
        enforce_eager=True,
        kv_transfer_config=kv_transfer_config,
        limit_mm_per_prompt={"image": 2},
-        disable_hybrid_kv_cache_manager=True,
    )

    # don't put this import at the top level
--- a/tests/v1/kv_connector/unit/utils.py
+++ b/tests/v1/kv_connector/unit/utils.py
@ -91,9 +91,6 @@ def create_vllm_config(
        max_num_batched_tokens=max_num_batched_tokens,
        max_model_len=max_model_len,
        enable_chunked_prefill=enable_chunked_prefill,
-        # Disable hybrid KV cache manager for testing
-        # Should be removed after we support hybrid KV cache manager-based testing.
-        disable_hybrid_kv_cache_manager=True,
    )
    model_config = ModelConfig(
        model=model,