Merge b1139f3484269217d41c0bc6ca794526f81a8f5b into 254f6b986720c92ddf97fbb1a6a6465da8e87e29

2026-05-03 03:11:22 +08:00 · 2025-12-25 08:06:39 +08:00 · 2025-12-25 08:06:39 +08:00 · fdab8ce4b0
commit fdab8ce4b0
parent 254f6b9867 b1139f3484
41 changed files with 230 additions and 55 deletions
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@ -1366,6 +1366,10 @@ class FusedMoE(CustomOp):
    def load_weights(
        self, weights: Iterable[tuple[str, torch.Tensor]]
    ) -> Iterable[str]:
+        from vllm.model_executor.model_loader.weight_utils import (
+            remap_expert_weight_name,
+        )
+
        if (expert_mapping := self.expert_mapping) is None:
            raise ValueError(
                "`self.expert_mapping` must be provided to "
@ -1376,7 +1380,10 @@ class FusedMoE(CustomOp):
            for param_name, weight_name, expert_id, shard_id in expert_mapping:
                if weight_name not in qual_name:
                    continue
-                weight_name = qual_name.replace(weight_name, param_name)
+                # Remap expert weight name (handles base_layer suffix correctly)
+                weight_name = remap_expert_weight_name(
+                    qual_name, weight_name, param_name
+                )
                param_name = weight_name.removeprefix(f"{self.layer_name}.")
                param = getattr(self, param_name)
                success = self.weight_loader(
--- a/vllm/model_executor/model_loader/weight_utils.py
+++ b/vllm/model_executor/model_loader/weight_utils.py
@ -1178,3 +1178,38 @@ def maybe_remap_kv_scale_name(name: str, params_dict: dict) -> str | None:

    # If there were no matches, return the untouched param name
    return name
+
+
+def remap_expert_weight_name(
+    name: str,
+    weight_name: str,
+    param_name: str,
+) -> str:
+    """Remap expert weight names, handling base_layer prefix for LoRA.
+
+    When loading expert weights, this function maps from checkpoint weight
+    names to model parameter names. It handles the special case where
+    LoRA wraps the original layer with a `base_layer` prefix.
+
+    For example:
+        - Input: name="model.layers.0.mlp.experts.0.up_proj.base_layer.weight"
+                 weight_name="experts.0.up_proj."
+                 param_name="experts.w13_"
+        - Output: "model.layers.0.mlp.experts.base_layer.w13_weight"
+
+    Args:
+        name: The full checkpoint weight name.
+        weight_name: The weight name pattern to match (e.g., "experts.0.up_proj.").
+        param_name: The parameter name to substitute (e.g., "experts.w13_").
+
+    Returns:
+        The remapped weight name with proper base_layer handling.
+    """
+    prefix, _, suffix = name.partition(weight_name)
+    middle = param_name
+    base = "base_layer"
+    if suffix.startswith(f"{base}."):
+        param_list = param_name.split(".", 1)
+        param_list.insert(1, base)
+        middle = ".".join(param_list)
+    return prefix + middle + suffix.removeprefix(f"{base}.")
--- a/vllm/model_executor/models/afmoe.py
+++ b/vllm/model_executor/models/afmoe.py
@ -36,6 +36,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.model_executor.models.interfaces import SupportsLoRA, SupportsPP
 from vllm.model_executor.models.llama import LlamaMLP as AfmoeMLP
@ -533,7 +534,10 @@ class AfmoeModel(nn.Module):

                    # Do not modify `name` since the loop may continue here
                    # Instead, create a new variable
-                    name_mapped = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name_mapped = remap_expert_weight_name(
+                        name, weight_name, param_name
+                    )

                    if is_pp_missing_parameter(name_mapped, self):
                        continue
--- a/vllm/model_executor/models/arctic.py
+++ b/vllm/model_executor/models/arctic.py
@ -38,7 +38,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.model_executor.utils import set_weight_attrs
 from vllm.platforms import current_platform
 from vllm.sequence import IntermediateTensors
@ -609,7 +612,8 @@ class ArcticForCausalLM(nn.Module, SupportsPP, SupportsQuant):
                    for param_name, weight_name, shard_id in expert_params_mapping:
                        if weight_name not in name:
                            continue
-                        name = name.replace(weight_name, param_name)
+                        # Remap expert weight name (handles base_layer suffix correctly)
+                        name = remap_expert_weight_name(name, weight_name, param_name)
                        if is_pp_missing_parameter(name, self):
                            continue
                        param = params_dict[name]
--- a/vllm/model_executor/models/bailing_moe.py
+++ b/vllm/model_executor/models/bailing_moe.py
@ -55,7 +55,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.sequence import IntermediateTensors

 from .interfaces import SupportsLoRA, SupportsPP
@ -524,7 +527,8 @@ class BailingMoeModel(nn.Module):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)

                    if is_pp_missing_parameter(name, self):
                        continue
--- a/vllm/model_executor/models/dbrx.py
+++ b/vllm/model_executor/models/dbrx.py
@ -31,6 +31,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.sequence import IntermediateTensors

@ -411,7 +412,8 @@ class DbrxModel(nn.Module):
            for param_name, weight_name in expert_params_mapping:
                if weight_name not in name:
                    continue
-                name = name.replace(weight_name, param_name)
+                # Remap expert weight name (handles base_layer suffix correctly)
+                name = remap_expert_weight_name(name, weight_name, param_name)
                if is_pp_missing_parameter(name, self):
                    continue
                param = params_dict[name]
--- a/vllm/model_executor/models/deepseek_eagle.py
+++ b/vllm/model_executor/models/deepseek_eagle.py
@ -18,6 +18,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.model_executor.models.deepseek_v2 import (
    DeepseekV2DecoderLayer,
@ -155,7 +156,8 @@ class DeepseekV2Model(nn.Module):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)

                    param = params_dict[name]
                    weight_loader = param.weight_loader
--- a/vllm/model_executor/models/deepseek_mtp.py
+++ b/vllm/model_executor/models/deepseek_mtp.py
@ -22,6 +22,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.platforms import current_platform
 from vllm.sequence import IntermediateTensors
@ -359,7 +360,10 @@ class DeepSeekMTP(nn.Module, SupportsPP, DeepseekV2MixtureOfExperts):

                        # Do not modify `name` since the loop may continue here
                        # Instead, create a new variable
-                        name_mapped = chunk_name.replace(weight_name, param_name)
+                        # Remap expert weight name (handles base_layer suffix correctly)
+                        name_mapped = remap_expert_weight_name(
+                            chunk_name, weight_name, param_name
+                        )

                        param = params_dict[name_mapped]
                        # We should ask the weight loader to return success or
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@ -72,6 +72,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.model_executor.models.utils import sequence_parallel_chunk
 from vllm.platforms import current_platform
@ -1643,7 +1644,10 @@ class DeepseekV2ForCausalLM(

                        # Do not modify `name` since the loop may continue here
                        # Instead, create a new variable
-                        name_mapped = chunk_name.replace(weight_name, param_name)
+                        # Remap expert weight name (handles base_layer suffix correctly)
+                        name_mapped = remap_expert_weight_name(
+                            chunk_name, weight_name, param_name
+                        )

                        if is_pp_missing_parameter(name_mapped, self):
                            continue
--- a/vllm/model_executor/models/dots1.py
+++ b/vllm/model_executor/models/dots1.py
@ -59,6 +59,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.sequence import IntermediateTensors

@ -464,7 +465,8 @@ class Dots1Model(nn.Module):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)

                    if is_pp_missing_parameter(name, self):
                        continue
--- a/vllm/model_executor/models/ernie45_moe.py
+++ b/vllm/model_executor/models/ernie45_moe.py
@ -60,6 +60,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.config import set_default_rope_theta
@ -563,7 +564,11 @@ class Ernie4_5_MoeModel(nn.Module):

                    # Do not modify `name` since the loop may continue here
                    # Instead, create a new variable
-                    name_mapped = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name_mapped = remap_expert_weight_name(
+                        name, weight_name, param_name
+                    )
+
                    # Skip layers on other devices.
                    if is_pp_missing_parameter(name_mapped, self):
                        continue
--- a/vllm/model_executor/models/ernie45_vl_moe.py
+++ b/vllm/model_executor/models/ernie45_vl_moe.py
@ -56,6 +56,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.config import set_default_rope_theta
@ -736,7 +737,8 @@ class Ernie4_5_VLMoeForCausalLM(nn.Module, SupportsPP):
                    moe_offset = int(name.split(".")[-3])
                    is_text_expert = moe_offset <= self.config.moe_num_experts[0] - 1

-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    if is_text_expert:
                        name = name.replace(".experts.", ".text_experts.")
                    else:
--- a/vllm/model_executor/models/glm4_moe.py
+++ b/vllm/model_executor/models/glm4_moe.py
@ -59,6 +59,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.sequence import IntermediateTensors

@ -554,7 +555,10 @@ class Glm4MoeModel(nn.Module):

                    # Do not modify `name` since the loop may continue here
                    # Instead, create a new variable
-                    name_mapped = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name_mapped = remap_expert_weight_name(
+                        name, weight_name, param_name
+                    )

                    if is_pp_missing_parameter(name_mapped, self):
                        continue
--- a/vllm/model_executor/models/glm4_moe_mtp.py
+++ b/vllm/model_executor/models/glm4_moe_mtp.py
@ -38,7 +38,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.sequence import IntermediateTensors

 from .glm4_moe import (
@ -293,7 +296,8 @@ class Glm4MoeMTP(nn.Module, SupportsPP, Glm4MixtureOfExperts):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)

                    param = params_dict[name]
                    weight_loader = param.weight_loader
--- a/vllm/model_executor/models/granitemoe.py
+++ b/vllm/model_executor/models/granitemoe.py
@ -56,6 +56,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.model_executor.models.utils import sequence_parallel_chunk
 from vllm.sequence import IntermediateTensors
@ -401,7 +402,8 @@ class GraniteMoeModel(nn.Module):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    # Skip layers on other devices.
                    if is_pp_missing_parameter(name, self):
                        continue
--- a/vllm/model_executor/models/granitemoehybrid.py
+++ b/vllm/model_executor/models/granitemoehybrid.py
@ -28,7 +28,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.sequence import IntermediateTensors

 from .granitemoe import GraniteMoeMoE
@ -465,7 +468,8 @@ class GraniteMoeHybridModel(nn.Module):
                if weight_name not in name:
                    continue

-                name_mapped = name.replace(weight_name, param_name)
+                # Remap expert weight name (handles base_layer suffix correctly)
+                name_mapped = remap_expert_weight_name(name, weight_name, param_name)

                # Skip layers on other devices.
                if is_pp_missing_parameter(name_mapped, self):
--- a/vllm/model_executor/models/grok1.py
+++ b/vllm/model_executor/models/grok1.py
@ -52,6 +52,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.sequence import IntermediateTensors

@ -426,7 +427,8 @@ class Grok1Model(nn.Module):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    # Skip layers on other devices.
                    if is_pp_missing_parameter(name, self):
                        continue
--- a/vllm/model_executor/models/hunyuan_v1.py
+++ b/vllm/model_executor/models/hunyuan_v1.py
@ -63,6 +63,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.sequence import IntermediateTensors

@ -848,7 +849,11 @@ class HunYuanModel(nn.Module):

                    # Do not modify `name` since the loop may continue here
                    # Instead, create a new variable
-                    name_mapped = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name_mapped = remap_expert_weight_name(
+                        name, weight_name, param_name
+                    )
+
                    if is_pp_missing_parameter(name_mapped, self):
                        continue
                    param = params_dict[name_mapped]
--- a/vllm/model_executor/models/jamba.py
+++ b/vllm/model_executor/models/jamba.py
@ -33,7 +33,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.model_executor.models.llama import LlamaMLP as JambaMLP
 from vllm.sequence import IntermediateTensors

@ -427,7 +430,8 @@ class JambaModel(nn.Module):

                    if is_pp_missing_parameter(name, self):
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    param = params_dict[name]
                    weight_loader = param.weight_loader
                    weight_loader(
--- a/vllm/model_executor/models/kimi_linear.py
+++ b/vllm/model_executor/models/kimi_linear.py
@ -38,6 +38,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.configs.kimi_linear import KimiLinearConfig
@ -609,7 +610,8 @@ class KimiLinearForCausalLM(
                ):
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    if is_pp_missing_parameter(name, self):
                        continue
                    param = params_dict[name]
--- a/vllm/model_executor/models/kimi_vl.py
+++ b/vllm/model_executor/models/kimi_vl.py
@ -65,6 +65,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.model_executor.models.deepseek_v2 import DeepseekV2Model
 from vllm.model_executor.models.interfaces import SupportsMultiModal, SupportsPP
@ -528,7 +529,8 @@ class KimiVLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
                    ) in enumerate(expert_params_mapping):
                        if weight_name not in name:
                            continue
-                        name = name.replace(weight_name, param_name)
+                        # Remap expert weight name (handles base_layer suffix correctly)
+                        name = remap_expert_weight_name(name, weight_name, param_name)

                        if is_pp_missing_parameter(name, self):
                            continue
--- a/vllm/model_executor/models/lfm2_moe.py
+++ b/vllm/model_executor/models/lfm2_moe.py
@ -35,7 +35,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.configs import Lfm2MoeConfig

@ -536,7 +539,8 @@ class Lfm2MoeModel(nn.Module):
                    if weight_name not in name:
                        continue

-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    # Skip layers on other devices.
                    if is_pp_missing_parameter(name, self):
                        continue
--- a/vllm/model_executor/models/llama4.py
+++ b/vllm/model_executor/models/llama4.py
@ -46,6 +46,7 @@ from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.model_executor.models.interfaces import MixtureOfExperts
 from vllm.model_executor.models.utils import sequence_parallel_chunk
@ -465,7 +466,7 @@ class Llama4Model(LlamaModel):
                continue

            # Replace the weight name with the parameter name.
-            full_param_name = name.replace(weight_name, param_name)
+            full_param_name = remap_expert_weight_name(name, weight_name, param_name)

            # Skip if the current weight corresponds to a parameter that
            # does not exist on the current PP (pipeline parallel) rank.
--- a/vllm/model_executor/models/longcat_flash.py
+++ b/vllm/model_executor/models/longcat_flash.py
@ -60,7 +60,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.model_executor.models.deepseek_v2 import DeepseekV2MLAAttention
 from vllm.sequence import IntermediateTensors

@ -676,7 +679,10 @@ class LongcatFlashForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                    if weight_name not in name:
                        continue
                    is_expert_weight = True
-                    name_mapped = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name_mapped = remap_expert_weight_name(
+                        name, weight_name, param_name
+                    )
                    # Skip mtp
                    if ".mtp." in name_mapped:
                        continue
--- a/vllm/model_executor/models/mimo_v2_flash.py
+++ b/vllm/model_executor/models/mimo_v2_flash.py
@ -40,6 +40,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.model_executor.models.utils import sequence_parallel_chunk
 from vllm.sequence import IntermediateTensors
@ -555,7 +556,8 @@ class MiMoV2Model(nn.Module):
                if weight_name not in name:
                    continue

-                name_rewritten = name.replace(weight_name, param_name)
+                # Remap expert weight name (handles base_layer suffix correctly)
+                name_rewritten = remap_expert_weight_name(name, weight_name, param_name)

                if is_pp_missing_parameter(name_rewritten, self):
                    continue
--- a/vllm/model_executor/models/minicpm.py
+++ b/vllm/model_executor/models/minicpm.py
@ -58,7 +58,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.model_executor.utils import set_weight_attrs
 from vllm.platforms import current_platform
 from vllm.sequence import IntermediateTensors
@ -525,7 +528,8 @@ class MiniCPMModel(nn.Module):
                for param_name, weight_name, expert_id in expert_params_mapping:
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    if is_pp_missing_parameter(name, self):
                        continue
                    param = params_dict[name]
--- a/vllm/model_executor/models/minicpm_eagle.py
+++ b/vllm/model_executor/models/minicpm_eagle.py
@ -40,7 +40,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.sequence import IntermediateTensors

 from .interfaces import SupportsEagle, SupportsLoRA, SupportsPP
@ -262,7 +265,8 @@ class EagleMiniCPMModel(nn.Module):
                for param_name, weight_name, expert_id in expert_params_mapping:
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    if is_pp_missing_parameter(name, self):
                        continue
                    param = params_dict[name]
--- a/vllm/model_executor/models/minimax_m2.py
+++ b/vllm/model_executor/models/minimax_m2.py
@ -56,6 +56,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.sequence import IntermediateTensors

@ -448,7 +449,8 @@ class MiniMaxM2Model(nn.Module):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)

                    if is_pp_missing_parameter(name, self):
                        continue
--- a/vllm/model_executor/models/minimax_text_01.py
+++ b/vllm/model_executor/models/minimax_text_01.py
@ -45,7 +45,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.model_executor.models.utils import maybe_prefix
 from vllm.sequence import IntermediateTensors

@ -806,7 +809,8 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid):
                    continue
                if weight_name not in name:
                    continue
-                name = name.replace(weight_name, param_name)
+                # Remap expert weight name (handles base_layer suffix correctly)
+                name = remap_expert_weight_name(name, weight_name, param_name)
                if is_pp_missing_parameter(name, self):
                    return
                param = params_dict[name]
--- a/vllm/model_executor/models/mixtral.py
+++ b/vllm/model_executor/models/mixtral.py
@ -57,6 +57,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.sequence import IntermediateTensors

@ -428,7 +429,10 @@ class MixtralModel(nn.Module):
                        continue

                    is_expert_weight = True
-                    name_mapped = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name_mapped = remap_expert_weight_name(
+                        name, weight_name, param_name
+                    )

                    # Skip layers on other devices.
                    if is_pp_missing_parameter(name_mapped, self):
--- a/vllm/model_executor/models/nemotron_h.py
+++ b/vllm/model_executor/models/nemotron_h.py
@ -56,6 +56,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.model_executor.models.interfaces import (
    HasInnerState,
@ -696,7 +697,10 @@ class NemotronHModel(nn.Module):

                    # Do not modify `name` since the loop may continue here
                    # Instead, create a new variable
-                    name_mapped = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name_mapped = remap_expert_weight_name(
+                        name, weight_name, param_name
+                    )

                    if is_pp_missing_parameter(name_mapped, self):
                        continue
--- a/vllm/model_executor/models/olmoe.py
+++ b/vllm/model_executor/models/olmoe.py
@ -46,7 +46,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.sequence import IntermediateTensors

 from .interfaces import SupportsLoRA, SupportsPP
@ -383,7 +386,8 @@ class OlmoeModel(nn.Module):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    # Skip layers on other devices.
                    if is_pp_missing_parameter(name, self):
                        continue
--- a/vllm/model_executor/models/openpangu.py
+++ b/vllm/model_executor/models/openpangu.py
@ -61,6 +61,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.model_executor.models.interfaces import (
    MixtureOfExperts,
@ -820,7 +821,10 @@ class OpenPanguModel(nn.Module):
            if origin_name not in weight_name:
                continue
            flag_dict["is_expert_weight"] = True
-            weight_name_mapped = weight_name.replace(origin_name, param_name)
+            # Remap expert weight name (handles base_layer suffix correctly)
+            weight_name_mapped = remap_expert_weight_name(
+                weight_name, origin_name, param_name
+            )
            if is_pp_missing_parameter(weight_name_mapped, self):
                continue
            param = params_dict[weight_name_mapped]
--- a/vllm/model_executor/models/openpangu_mtp.py
+++ b/vllm/model_executor/models/openpangu_mtp.py
@ -34,7 +34,10 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.vocab_parallel_embedding import (
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.model_executor.models.deepseek_mtp import (
    DeepSeekMultiTokenPredictor,
    DeepSeekMultiTokenPredictorLayer,
@ -201,7 +204,8 @@ class OpenPanguMTP(nn.Module, SupportsPP):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)

                    param = params_dict[name]
                    weight_loader = param.weight_loader
--- a/vllm/model_executor/models/phimoe.py
+++ b/vllm/model_executor/models/phimoe.py
@ -51,6 +51,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.sequence import IntermediateTensors

@ -565,7 +566,8 @@ class PhiMoEModel(nn.Module):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    # Skip layers on other devices.
                    if is_pp_missing_parameter(name, self):
                        continue
--- a/vllm/model_executor/models/qwen2_moe.py
+++ b/vllm/model_executor/models/qwen2_moe.py
@ -55,7 +55,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.sequence import IntermediateTensors

 from .interfaces import SupportsLoRA, SupportsPP
@ -470,7 +473,8 @@ class Qwen2MoeModel(nn.Module):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)

                    # Skip layers on other devices.
                    if is_pp_missing_parameter(name, self):
--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@ -61,6 +61,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.model_executor.models.utils import sequence_parallel_chunk
 from vllm.sequence import IntermediateTensors
@ -567,7 +568,10 @@ class Qwen3MoeModel(nn.Module):

                    # Do not modify `name` since the loop may continue here
                    # Instead, create a new variable
-                    name_mapped = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name_mapped = remap_expert_weight_name(
+                        name, weight_name, param_name
+                    )

                    if is_pp_missing_parameter(name_mapped, self):
                        continue
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@ -65,6 +65,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 )
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
+    remap_expert_weight_name,
    sharded_weight_loader,
 )
 from vllm.model_executor.models.qwen2_moe import Qwen2MoeMLP as Qwen3NextMLP
@ -1083,7 +1084,8 @@ class Qwen3NextModel(nn.Module):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    # Skip layers on other devices.
                    if is_pp_missing_parameter(name, self):
                        continue
--- a/vllm/model_executor/models/qwen3_next_mtp.py
+++ b/vllm/model_executor/models/qwen3_next_mtp.py
@ -18,7 +18,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.model_executor.models.qwen3_next import (
    Qwen3NextDecoderLayer,
    Qwen3NextRMSNorm,
@ -184,7 +187,8 @@ class Qwen3NextMultiTokenPredictor(nn.Module):
                    param_name, weight_name, expert_id, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    # Skip layers on other devices.
                    if is_pp_missing_parameter(name, self):
                        continue
--- a/vllm/model_executor/models/qwen3_vl_moe.py
+++ b/vllm/model_executor/models/qwen3_vl_moe.py
@ -42,6 +42,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
 from vllm.model_executor.model_loader.weight_utils import (
    default_weight_loader,
    maybe_remap_kv_scale_name,
+    remap_expert_weight_name,
 )
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.sequence import IntermediateTensors
@ -238,7 +239,10 @@ class Qwen3MoeLLMModel(Qwen3MoeModel):
                    # Anyway, this is an expert weight and should not be
                    # attempted to load as other weights later
                    is_expert_weight = True
-                    name_mapped = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name_mapped = remap_expert_weight_name(
+                        name, weight_name, param_name
+                    )
                    if is_pp_missing_parameter(name_mapped, self):
                        continue
                    if is_fused_expert:
--- a/vllm/model_executor/models/step3_text.py
+++ b/vllm/model_executor/models/step3_text.py
@ -34,7 +34,10 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    remap_expert_weight_name,
+)
 from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.configs.step3_vl import Step3TextConfig

@ -498,7 +501,8 @@ class Step3TextForCausalLM(nn.Module, SupportsPP):
                    param_name, weight_name, shard_id = mapping
                    if weight_name not in name:
                        continue
-                    name = name.replace(weight_name, param_name)
+                    # Remap expert weight name (handles base_layer suffix correctly)
+                    name = remap_expert_weight_name(name, weight_name, param_name)
                    # Skip layers on other devices.
                    if is_pp_missing_parameter(name, self):
                        continue