Convert before transpose (#1073)

2025-12-10 06:35:00 +08:00 · 2023-09-18 11:51:48 -07:00 · 2023-09-18 11:51:48 -07:00 · cc796b1358
commit cc796b1358
parent f029ef94d7
1 changed files with 3 additions and 2 deletions
--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@ -43,8 +43,8 @@ from vllm.model_executor.parallel_utils.tensor_parallel import (
    VocabParallelEmbedding)
 from vllm.model_executor.quantization_utils import QuantizationConfig
 from vllm.model_executor.weight_utils import (
-    load_tensor_parallel_weights, load_padded_tensor_parallel_vocab,
+    convert_pyslice_to_tensor, hf_model_weights_iterator,
-    hf_model_weights_iterator)
+    load_tensor_parallel_weights, load_padded_tensor_parallel_vocab)
 from vllm.sequence import SamplerOutput
 KVCache = Tuple[torch.Tensor, torch.Tensor]
@ -337,6 +337,7 @@ class LlamaForCausalLM(nn.Module):
                is_packed = self.quant_config.is_packed(name)
                is_transposed = self.quant_config.is_transposed(name)
            if is_transposed:
                loaded_weight = convert_pyslice_to_tensor(loaded_weight)
                loaded_weight = loaded_weight.T
            is_attention_weight = False