mirror of
https://git.datalinker.icu/vllm-project/vllm.git
synced 2026-04-18 13:47:07 +08:00
54 lines
1.0 KiB
Makefile
54 lines
1.0 KiB
Makefile
llama-scout-bf16:
|
|
python3 benchmark_moe.py \
|
|
--model meta-llama/Llama-4-Scout-17B-16E-Instruct \
|
|
--tp-size 1 \
|
|
--ep-size 8 \
|
|
--tune
|
|
|
|
llama-scout-fp8:
|
|
python3 benchmark_moe.py \
|
|
--model meta-llama/Llama-4-Scout-17B-16E-Instruct \
|
|
--tp-size 1 \
|
|
--ep-size 8 \
|
|
--dtype fp8_w8a8 \
|
|
--tune
|
|
|
|
llama-maverick:
|
|
python3 benchmark_moe.py \
|
|
--model meta-llama/Llama-4-Maverick-17B-128E-Instruct \
|
|
--tp-size 1 \
|
|
--ep-size 8 \
|
|
--dtype fp8_w8a8 \
|
|
--tune
|
|
|
|
qwen-30b:
|
|
python3 benchmark_moe.py \
|
|
--model Qwen/Qwen3-30B-A3B \
|
|
--tp-size 1 \
|
|
--ep-size 8 \
|
|
--tune
|
|
|
|
qwen-30b-fp8:
|
|
python3 benchmark_moe.py \
|
|
--model Qwen/Qwen3-30B-A3B-FP8 \
|
|
--tp-size 1 \
|
|
--ep-size 8 \
|
|
--dtype fp8_w8a8 \
|
|
--tune
|
|
|
|
qwen-235b:
|
|
python3 benchmark_moe.py \
|
|
--model Qwen/Qwen3-235B-A22B \
|
|
--tp-size 1 \
|
|
--ep-size 8 \
|
|
--dtype fp8_w8a8 \
|
|
--tune
|
|
|
|
deepseek-r1:
|
|
python3 benchmark_moe.py \
|
|
--model deepseek-ai/DeepSeek-R1-0528 \
|
|
--tp-size 1 \
|
|
--ep-size 8 \
|
|
--dtype fp8_w8a8 \
|
|
--tune
|