[Core] Asynchronous h2d in merge_multimodal_embeddings via pinned memory. (#23686)

Signed-off-by: Chenheli Hua <huachenheli@outlook.com> Co-authored-by: Roger Wang <hey@rogerw.io>
2026-07-31 19:07:52 +08:00 · 2025-08-26 20:05:34 -07:00 · 2025-08-26 20:05:34 -07:00 · c905684cfe
commit c905684cfe
parent 786835807b
1 changed files with 3 additions and 1 deletions
--- a/vllm/model_executor/models/utils.py
+++ b/vllm/model_executor/models/utils.py
@ -508,7 +508,9 @@ def merge_multimodal_embeddings(
    """
    if isinstance(placeholder_token_id, list):
        placeholder_token_id = torch.tensor(placeholder_token_id,
-                                            device=input_ids.device)
+                                            pin_memory=True).to(
+                                                device=input_ids.device,
+                                                non_blocking=True)
        return _merge_multimodal_embeddings(
            inputs_embeds,
            torch.isin(input_ids, placeholder_token_id),