remove merge

Signed-off-by: inkcherry <mingzhi.liu@amd.com>
2026-05-18 15:27:00 +08:00 · 2025-12-17 08:36:11 +00:00 · 2025-12-17 08:36:11 +00:00 · bba01338ca
commit bba01338ca
parent f98cde1997
3 changed files with 0 additions and 5 deletions
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@ -335,7 +335,6 @@ class OpenAIServingChat(OpenAIServing):
                        lora_request=lora_request,
                        trace_headers=trace_headers,
                        priority=request.priority,
-                        data_parallel_rank=data_parallel_rank,
                    )

                    generator = self.engine_client.generate(
--- a/vllm/entrypoints/openai/serving_completion.py
+++ b/vllm/entrypoints/openai/serving_completion.py
@ -226,7 +226,6 @@ class OpenAIServingCompletion(OpenAIServing):
                        lora_request=lora_request,
                        trace_headers=trace_headers,
                        priority=request.priority,
-                        data_parallel_rank=data_parallel_rank,
                    )

                    generator = self.engine_client.generate(
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@ -1207,7 +1207,6 @@ class OpenAIServing:
        lora_request: LoRARequest | None,
        trace_headers: Mapping[str, str] | None,
        priority: int,
-        data_parallel_rank: int | None,
    ) -> tuple[EngineCoreRequest, dict[str, Any]]:
        """Use the Processor to process inputs for AsyncLLM."""
        tokenization_kwargs: dict[str, Any] = {}
@ -1223,7 +1222,6 @@ class OpenAIServing:
            tokenization_kwargs=tokenization_kwargs,
            trace_headers=trace_headers,
            priority=priority,
-            data_parallel_rank=data_parallel_rank,
        )
        return engine_request, tokenization_kwargs

@ -1258,7 +1256,6 @@ class OpenAIServing:
                lora_request=lora_request,
                trace_headers=trace_headers,
                priority=priority,
-                data_parallel_rank=None,
            )

            generator = self.engine_client.generate(