vllm/quantized_v6e_1.env at e98def439cc89adba6d704083c5c78dd89b51b5f - vllm - 丝路新云-代码仓

xinyun/vllm

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2025-12-23 22:25:46 +08:00

QiliangCui 4ff61ababa

[TPU] Add a case to cover RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a8 (#20385 )

Signed-off-by: Qiliang Cui <derrhein@gmail.com>

2025-07-03 06:46:41 +00:00

15 lines

313 B

Bash

Raw Blame History

 # Environment config
 TEST_NAME=llama8bw8a8
 CONTAINER_NAME=vllm-tpu
 # vllm config
 MODEL=RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a8
 MAX_NUM_SEQS=128
 MAX_NUM_BATCHED_TOKENS=1024
 TENSOR_PARALLEL_SIZE=1
 MAX_MODEL_LEN=2048
 DOWNLOAD_DIR=/mnt/disks/persist
 EXPECTED_THROUGHPUT=10.0
 INPUT_LEN=1800
 OUTPUT_LEN=128