[Bugfix] Fix no video/image profiling edge case for MultiModalDataParser (#15828)

Signed-off-by: Isotr0py <2037008807@qq.com>
2026-06-01 08:37:04 +08:00 · 2025-04-01 18:17:11 +08:00 · 2025-04-01 18:17:11 +08:00 · 0a298ea418
commit 0a298ea418
parent d330558bab
1 changed files with 27 additions and 6 deletions
--- a/vllm/multimodal/parse.py
+++ b/vllm/multimodal/parse.py
@ -295,7 +295,7 @@ class MultiModalDataItems(UserDict[str, ModalityDataItems[Any, Any]]):
 ModalityDataParser: TypeAlias = Callable[[ModalityData[Any]],
-                                         ModalityDataItems[Any, Any]]
+                                         Optional[ModalityDataItems[Any, Any]]]
 class MultiModalDataParser:
@ -319,7 +319,15 @@ class MultiModalDataParser:
        if isinstance(data, torch.Tensor):
            return data.ndim == 3
        if is_list_of(data, torch.Tensor):
-            return len(data) == 0 or data[0].ndim == 2
+            return data[0].ndim == 2
        return False
    def _is_empty(self, data: object) -> TypeGuard[None]:
        if isinstance(data, list):
            return len(data) == 0
        if isinstance(data, (np.ndarray, torch.Tensor)):
            return data.size == 0
        return False
@ -341,7 +349,12 @@ class MultiModalDataParser:
    def _parse_audio_data(
        self,
        data: ModalityData[AudioItem],
-    ) -> ModalityDataItems[Any, Any]:
+    ) -> Optional[ModalityDataItems[Any, Any]]:
        # also check single audio item with sampling rate
        if self._is_empty(data) or (isinstance(data, tuple)
                                    and self._is_empty(data[0])):
            return None
        if self._is_embeddings(data):
            return AudioEmbeddingItems(data)
@ -378,7 +391,10 @@ class MultiModalDataParser:
    def _parse_image_data(
        self,
        data: ModalityData[ImageItem],
-    ) -> ModalityDataItems[Any, Any]:
+    ) -> Optional[ModalityDataItems[Any, Any]]:
        if self._is_empty(data):
            return None
        if self._is_embeddings(data):
            return ImageEmbeddingItems(data)
@ -396,7 +412,10 @@ class MultiModalDataParser:
    def _parse_video_data(
        self,
        data: ModalityData[VideoItem],
-    ) -> ModalityDataItems[Any, Any]:
+    ) -> Optional[ModalityDataItems[Any, Any]]:
        if self._is_empty(data):
            return None
        if self._is_embeddings(data):
            return VideoEmbeddingItems(data)
@ -427,6 +446,8 @@ class MultiModalDataParser:
            if k not in subparsers:
                raise ValueError(f"Unsupported modality: {k}")
-            mm_items[k] = subparsers[k](v)
+            # ignore empty embedding data
            if (parsed_data := subparsers[k](v)) is not None:
                mm_items[k] = parsed_data
        return mm_items