[BugFix] bad_words filtering ineffective when n > 1 (#29313)

Signed-off-by: GOavi101 <1704178@kiit.ac.in>
2025-12-11 21:55:42 +08:00 · 2025-11-25 15:06:34 +05:30 · 2025-11-25 15:06:34 +05:30 · 32c40b95e0
commit 32c40b95e0
parent db2906108a
3 changed files with 18 additions and 6 deletions
--- a/vllm/v1/engine/init.py
+++ b/vllm/v1/engine/init.py
@ -72,6 +72,14 @@ class EngineCoreRequest(
    trace_headers: Mapping[str, str] | None = None
    @property
    def params(self) -> SamplingParams | PoolingParams:
        """Return the processed params (sampling or pooling)."""
        if self.sampling_params is not None:
            return self.sampling_params
        assert self.pooling_params is not None
        return self.pooling_params
 class EngineCoreEventType(enum.IntEnum):
    """The type of engine core request event."""
--- a/vllm/v1/engine/async_llm.py
+++ b/vllm/v1/engine/async_llm.py
@ -321,14 +321,15 @@ class AsyncLLM(EngineClient):
            elif isinstance(prompt, Mapping):
                prompt_text = cast(str | None, prompt.get("prompt"))
        # Use cloned params that may have been updated in process_inputs()
        params = request.params
        if is_pooling or params.n == 1:
            await self._add_request(request, prompt_text, None, 0, queue)
            return queue
-        # Get the updated SamplingParams from the request, which
+        parent_params = params
-        # were cloned/updated in processor.process_inputs above.
+        assert isinstance(parent_params, SamplingParams)
        parent_params = request.sampling_params
        assert parent_params is not None
        # Fan out child requests (for n>1).
        parent_request = ParentRequest(request_id, parent_params)
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@ -250,6 +250,9 @@ class LLMEngine:
            elif isinstance(prompt, Mapping):
                prompt_text = cast(str | None, prompt.get("prompt"))
        # Use cloned params that may have been updated in process_inputs()
        params = request.params
        n = params.n if isinstance(params, SamplingParams) else 1
        if n == 1:
@ -262,10 +265,10 @@ class LLMEngine:
        # Fan out child requests (for n>1).
        parent_req = ParentRequest(request_id, params)
        for idx in range(n):
-            request_id, params = parent_req.get_child_info(idx)
+            request_id, child_params = parent_req.get_child_info(idx)
            child_request = request if idx == n - 1 else copy(request)
            child_request.request_id = request_id
-            child_request.sampling_params = params
+            child_request.sampling_params = child_params
            # Make a new RequestState and queue.
            self.output_processor.add_request(