[Bugfix] Initialize attention bias on the same device as Query/Key/Value for QwenVL Series (#14031)

2025-12-16 11:26:16 +08:00 · 2025-02-28 23:36:08 +08:00 · 2025-02-28 23:36:08 +08:00 · 9b61dd41e7
commit 9b61dd41e7
parent f7bee5c815
2 changed files with 4 additions and 2 deletions
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@ -323,7 +323,8 @@ class Qwen2_5_VisionAttention(nn.Module):

            seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
            attn_bias = BlockDiagonalMask.from_seqlens(q_seqlen=seqlens,
-                                                       kv_seqlen=None)
+                                                       kv_seqlen=None,
+                                                       device=q.device)

            context_layer = xops.memory_efficient_attention_forward(
                q, k, v, attn_bias=attn_bias, p=0, scale=None)
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@ -367,7 +367,8 @@ class Qwen2VisionAttention(nn.Module):

            seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
            attn_bias = BlockDiagonalMask.from_seqlens(q_seqlen=seqlens,
-                                                       kv_seqlen=None)
+                                                       kv_seqlen=None,
+                                                       device=q.device)

            context_layer = xops.memory_efficient_attention_forward(
                q, k, v, attn_bias=attn_bias, p=0, scale=None)