[Bugfix] Token type and position embeddings fail to be applied to inputs_embeds (#25922)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
2026-01-29 18:57:13 +08:00 · 2025-10-01 00:23:12 +08:00 · 2025-10-01 00:23:12 +08:00 · 9f1c4ecaf2
commit 9f1c4ecaf2
parent ef283548f7
2 changed files with 14 additions and 9 deletions
--- a/vllm/model_executor/models/bert.py
+++ b/vllm/model_executor/models/bert.py
@ -61,11 +61,13 @@ class BertEmbedding(nn.Module):
        self,
        input_ids: torch.Tensor,
        position_ids: torch.Tensor,
+        inputs_embeds: Optional[torch.Tensor] = None,
    ) -> torch.Tensor:
-
        token_type_ids = _decode_token_type_ids(input_ids)

-        inputs_embeds = self.word_embeddings(input_ids)
+        if inputs_embeds is None:
+            inputs_embeds = self.word_embeddings(input_ids)
+
        position_embeddings = self.position_embeddings(position_ids)

        token_type_embeddings = self.token_type_embeddings(token_type_ids)
@ -358,11 +360,12 @@ class BertModel(nn.Module, SupportsQuant):
        intermediate_tensors: Optional[IntermediateTensors] = None,
        inputs_embeds: Optional[torch.Tensor] = None,
    ) -> torch.Tensor:
-        if inputs_embeds is not None:
-            hidden_states = inputs_embeds
-        else:
-            hidden_states = self.embeddings(input_ids=input_ids,
-                                            position_ids=positions)
+        hidden_states = self.embeddings(
+            input_ids=input_ids,
+            position_ids=positions,
+            inputs_embeds=inputs_embeds,
+        )
+
        return self.encoder(hidden_states)

    def _load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
--- a/vllm/model_executor/models/roberta.py
+++ b/vllm/model_executor/models/roberta.py
@ -56,11 +56,13 @@ class RobertaEmbedding(nn.Module):
        self,
        input_ids: torch.Tensor,
        position_ids: torch.Tensor,
+        inputs_embeds: Optional[torch.Tensor] = None,
    ) -> torch.Tensor:
-
        token_type_ids = _decode_token_type_ids(input_ids)

-        inputs_embeds = self.word_embeddings(input_ids)
+        if inputs_embeds is None:
+            inputs_embeds = self.word_embeddings(input_ids)
+
        position_embeddings = self.position_embeddings(position_ids)

        token_type_embeddings = self.token_type_embeddings(token_type_ids)