[Bugfix] Fix numel() downcast in fused_layernorm_dynamic_per_token_quant.cu (#17316)

2025-12-10 02:05:01 +08:00 · 2025-04-28 19:23:18 -07:00 · 2025-04-28 19:23:18 -07:00 · d6da8a8ff2
commit d6da8a8ff2
parent b4ac4fa04d
1 changed files with 1 additions and 1 deletions
--- a/csrc/quantization/fused_kernels/fused_layernorm_dynamic_per_token_quant.cu
+++ b/csrc/quantization/fused_kernels/fused_layernorm_dynamic_per_token_quant.cu
@ -96,7 +96,7 @@ void rms_norm_dynamic_per_token_quant_dispatch(
    std::optional<at::Tensor> const& scale_ub,
    std::optional<at::Tensor>& residual) {
  int32_t hidden_size = input.size(-1);
-  int32_t num_tokens = input.numel() / hidden_size;
+  auto num_tokens = input.numel() / hidden_size;

  dim3 grid(num_tokens);
  dim3 block(std::min(hidden_size, 1024));