[Bugfix] Fix Tensor Parallelism Padding Consistency in Granite Models (#20843)

Signed-off-by: Alex-Brooks <Alex.Brooks@ibm.com>
2025-12-13 21:35:00 +08:00 · 2025-07-12 07:11:30 -06:00 · 2025-07-12 07:11:30 -06:00 · c2a2f19aba
commit c2a2f19aba
parent 2c11a738b3
1 changed files with 4 additions and 0 deletions
--- a/vllm/model_executor/models/granite.py
+++ b/vllm/model_executor/models/granite.py
@ -273,6 +273,10 @@ class GraniteModel(nn.Module):
                self.vocab_size,
                config.hidden_size,
                org_num_embeddings=config.vocab_size,
                padding_size=DEFAULT_VOCAB_PADDING_SIZE
                # We need bigger padding if using lora for kernel
                # compatibility
                if not lora_config else lora_config.lora_vocab_padding_size,
                quant_config=quant_config,
            )
        else: