[Misc] Improve error message for is_multimodal (#30483)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
2025-12-21 03:55:01 +08:00 · 2025-12-11 22:39:51 +08:00 · 2025-12-11 22:39:51 +08:00 · 3a3b06ee70
commit 3a3b06ee70
parent f4417f8449
3 changed files with 21 additions and 7 deletions
--- a/vllm/model_executor/models/interfaces.py
+++ b/vllm/model_executor/models/interfaces.py
@ -53,6 +53,22 @@ The output embeddings must be one of the following formats:
 """
 def _require_is_multimodal(is_multimodal: Tensor | None) -> Tensor:
    """
    A helper function to be used in the context of
    [vllm.model_executor.models.interfaces.SupportsMultiModal.embed_input_ids][]
    to provide a better error message.
    """
    if is_multimodal is None:
        raise ValueError(
            "`embed_input_ids` now requires `is_multimodal` arg, "
            "please update your model runner according to "
            "https://github.com/vllm-project/vllm/pull/16229."
        )
    return is_multimodal
@runtime_checkable
 class SupportsMultiModal(Protocol):
    """The interface required for all multi-modal models."""
@ -190,12 +206,10 @@ class SupportsMultiModal(Protocol):
        if multimodal_embeddings is None or len(multimodal_embeddings) == 0:
            return inputs_embeds
        assert is_multimodal is not None
        return _merge_multimodal_embeddings(
            inputs_embeds=inputs_embeds,
            multimodal_embeddings=multimodal_embeddings,
-            is_multimodal=is_multimodal,
+            is_multimodal=_require_is_multimodal(is_multimodal),
        )
--- a/vllm/model_executor/models/phi3v.py
+++ b/vllm/model_executor/models/phi3v.py
@ -64,6 +64,7 @@ from .interfaces import (
    SupportsMultiModal,
    SupportsPP,
    SupportsQuant,
    _require_is_multimodal,
 )
 from .utils import (
    AutoWeightsLoader,
@ -687,12 +688,10 @@ class Phi3VForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsQuant)
        if multimodal_embeddings is None or len(multimodal_embeddings) == 0:
            return inputs_embeds
        assert is_multimodal is not None
        return _merge_multimodal_embeddings(
            inputs_embeds=inputs_embeds,
            multimodal_embeddings=multimodal_embeddings,
-            is_multimodal=is_multimodal,
+            is_multimodal=_require_is_multimodal(is_multimodal),
        )
    def forward(
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@ -93,6 +93,7 @@ from .interfaces import (
    SupportsMRoPE,
    SupportsMultiModal,
    SupportsPP,
    _require_is_multimodal,
 )
 from .qwen2_5_vl import (
    Qwen2_5_VisionAttention,
@ -1572,7 +1573,7 @@ class Qwen3VLForConditionalGeneration(
        if multimodal_embeddings is None or len(multimodal_embeddings) == 0:
            return inputs_embeds
-        assert is_multimodal is not None
+        is_multimodal = _require_is_multimodal(is_multimodal)
        if self.use_deepstack:
            (