From bc0a5a0c089844b17cb93f3294348f411e523586 Mon Sep 17 00:00:00 2001
From: Vadim Gimpelson <156319763+vadiklyutiy@users.noreply.github.com>
Date: Wed, 24 Dec 2025 05:21:50 +0400
Subject: [PATCH] [CI] Add Qwen3-Next-FP8 to Blackwell model tests (#31049)

Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>
---
 tests/evals/gsm8k/configs/Qwen3-Next-FP8-EP2.yaml | 11 +++++++++++
 tests/evals/gsm8k/configs/models-blackwell.txt    |  1 +
 tests/evals/gsm8k/test_gsm8k_correctness.py       |  1 +
 tests/utils.py                                    |  1 +
 4 files changed, 14 insertions(+)
 create mode 100644 tests/evals/gsm8k/configs/Qwen3-Next-FP8-EP2.yaml

diff --git a/tests/evals/gsm8k/configs/Qwen3-Next-FP8-EP2.yaml b/tests/evals/gsm8k/configs/Qwen3-Next-FP8-EP2.yaml
new file mode 100644
index 0000000000000..9fae32734d753
--- /dev/null
+++ b/tests/evals/gsm8k/configs/Qwen3-Next-FP8-EP2.yaml
@@ -0,0 +1,11 @@
+model_name: "Qwen/Qwen3-Next-80B-A3B-Instruct-FP8"
+accuracy_threshold: 0.85
+num_questions: 1319
+num_fewshot: 5
+server_args: >-
+  --max-model-len 4096
+  --tensor-parallel-size 2
+  --enable-expert-parallel
+  --async-scheduling
+env:
+  VLLM_USE_FLASHINFER_MOE_FP8: "1"
diff --git a/tests/evals/gsm8k/configs/models-blackwell.txt b/tests/evals/gsm8k/configs/models-blackwell.txt
index 39978aa6ffbe9..c27031d25fb8c 100644
--- a/tests/evals/gsm8k/configs/models-blackwell.txt
+++ b/tests/evals/gsm8k/configs/models-blackwell.txt
@@ -4,3 +4,4 @@ Qwen1.5-MoE-W4A16-CT.yaml
 DeepSeek-V2-Lite-Instruct-FP8.yaml
 Qwen3-30B-A3B-NVFP4.yaml
 Qwen3-Next-80B-A3B-NVFP4-EP2.yaml
+Qwen3-Next-FP8-EP2.yaml
diff --git a/tests/evals/gsm8k/test_gsm8k_correctness.py b/tests/evals/gsm8k/test_gsm8k_correctness.py
index ea6715f5cb532..dd0d3ae0cca47 100644
--- a/tests/evals/gsm8k/test_gsm8k_correctness.py
+++ b/tests/evals/gsm8k/test_gsm8k_correctness.py
@@ -71,6 +71,7 @@ def test_gsm8k_correctness(config_filename):
     print(f"Number of questions: {eval_config['num_questions']}")
     print(f"Number of few-shot examples: {eval_config['num_fewshot']}")
     print(f"Server args: {' '.join(server_args)}")
+    print(f"Environment variables: {env_dict}")
 
     # Launch server and run evaluation
     with RemoteOpenAIServer(
diff --git a/tests/utils.py b/tests/utils.py
index d8102331b3612..1b338e93182a5 100644
--- a/tests/utils.py
+++ b/tests/utils.py
@@ -106,6 +106,7 @@ class RemoteOpenAIServer:
             env.update(env_dict)
         serve_cmd = ["vllm", "serve", model, *vllm_serve_args]
         print(f"Launching RemoteOpenAIServer with: {' '.join(serve_cmd)}")
+        print(f"Environment variables: {env}")
         self.proc: subprocess.Popen = subprocess.Popen(
             serve_cmd,
             env=env,