[Bugfix] Fix Tensor Parallelism Padding Consistency in Granite Models (#20843)

Signed-off-by: Alex-Brooks <Alex.Brooks@ibm.com>
2026-01-26 15:44:30 +08:00 · 2025-07-12 07:11:30 -06:00 · 2025-07-12 07:11:30 -06:00 · c2a2f19aba
commit c2a2f19aba
parent 2c11a738b3
1 changed files with 4 additions and 0 deletions
--- a/vllm/model_executor/models/granite.py
+++ b/vllm/model_executor/models/granite.py
@ -273,6 +273,10 @@ class GraniteModel(nn.Module):
                self.vocab_size,
                config.hidden_size,
                org_num_embeddings=config.vocab_size,
+                padding_size=DEFAULT_VOCAB_PADDING_SIZE
+                # We need bigger padding if using lora for kernel
+                # compatibility
+                if not lora_config else lora_config.lora_vocab_padding_size,
                quant_config=quant_config,
            )
        else: