From 03191cd8f0ffa0f37629518b19d9155260fd2483 Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Wed, 17 Sep 2025 08:57:34 +0100
Subject: [PATCH] [Core][MultiModalHasher] Hash images without converting image
 mode (#24969)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
---
 vllm/multimodal/hasher.py | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/vllm/multimodal/hasher.py b/vllm/multimodal/hasher.py
index 0fb1363ce471a..df6c531d876ad 100644
--- a/vllm/multimodal/hasher.py
+++ b/vllm/multimodal/hasher.py
@@ -12,7 +12,6 @@ from blake3 import blake3
 from PIL import Image
 
 from vllm.logger import init_logger
-from vllm.multimodal.image import convert_image_mode
 
 logger = init_logger(__name__)
 
@@ -35,8 +34,12 @@ class MultiModalHasher:
                     exif[Image.ExifTags.Base.ImageID], uuid.UUID):
                 # If the image has exif ImageID tag, use that
                 return (exif[Image.ExifTags.Base.ImageID].bytes, )
-            return cls.iter_item_to_bytes(
-                "image", np.asarray(convert_image_mode(obj, "RGBA")))
+            data = {"mode": obj.mode, "data": np.asarray(obj)}
+            if obj.palette is not None:
+                data["palette"] = obj.palette.palette
+                if obj.palette.rawmode is not None:
+                    data["palette_rawmode"] = obj.palette.rawmode
+            return cls.iter_item_to_bytes("image", data)
         if isinstance(obj, torch.Tensor):
             tensor_obj: torch.Tensor = obj.cpu()
             tensor_dtype = tensor_obj.dtype