fix attention free models

Signed-off-by: Xingyu Liu <charlotteliu12x@gmail.com>
2026-05-12 03:13:36 +08:00 · 2025-12-08 16:13:31 -08:00 · 2025-12-08 16:13:31 -08:00 · 1cf506d89e
commit 1cf506d89e
parent 0a4f4724ef
1 changed files with 19 additions and 0 deletions
--- a/vllm/transformers_utils/model_arch_config_convertor.py
+++ b/vllm/transformers_utils/model_arch_config_convertor.py
@ -269,6 +269,22 @@ class ModelArchConfigConvertorBase:
        return model_arch_config
 class MambaModelArchConfigConvertor(ModelArchConfigConvertorBase):
    def get_head_size(self) -> int:
        return 0
    def get_total_num_kv_heads(self) -> int:
        return 0
 class TerratorchModelArchConfigConvertor(ModelArchConfigConvertorBase):
    def get_head_size(self) -> int:
        return 0
    def get_total_num_kv_heads(self) -> int:
        return 0
 class Zamba2ModelArchConfigConvertor(ModelArchConfigConvertorBase):
    def get_head_size(self) -> int:
        return getattr(self.hf_text_config, "attention_head_dim", 0)
@ -357,6 +373,9 @@ class LongCatFlashMTPModelArchConfigConvertor(ModelArchConfigConvertorBase):
 # hf_config.model_type -> convertor class
 MODEL_ARCH_CONFIG_CONVERTORS = {
    "mamba": MambaModelArchConfigConvertor,
    "mamba2": MambaModelArchConfigConvertor,
    "terratorch": TerratorchModelArchConfigConvertor,
    "zamba2": Zamba2ModelArchConfigConvertor,
    "mpt": MPTModelArchConfigConvertor,
    "dbrx": DbrxModelArchConfigConvertor,