xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-06-23 11:47:12 +08:00

Author	SHA1	Message	Date
Thomas Parnell	ab9f2cfd19	[CI] [Hybrid] Bump min transformers version for Bamba and Jamba (#22908 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>	2025-08-14 11:01:16 -07:00
Cyrus Leung	dbe298046c	[Bugfix] Fix parsing of `--disable-mm-preprocessor-cache` (#22909 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-14 08:09:44 -07:00
Jiangyun Zhu	625ccd1c4d	[Bugfix] Replace custom Encoding class with BatchEncoding in MistralTokenizer (#22786 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-08-14 08:09:27 -07:00
Jee Jee Li	92ff41abea	[Model] Modify the gate implementation of glm4_moe (#22832 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-08-14 05:28:50 -07:00
Lucas Wilkinson	829b9a62d0	[Perf] Dont create unnecessary pooling params (#22876 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-08-14 05:28:09 -07:00
Nicolò Lucchesi	540d54ca8d	[CI] Re-enable transcriptions `test_long_audio_request` (#22890 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-08-14 11:34:34 +00:00
Daniele	0783f13960	[Doc] fix dead link (#22898 ) Signed-off-by: Daniele Trifirò <dtrifiro@redhat.com>	2025-08-14 04:06:13 -07:00
iAmir97	7655dc3e45	[Bugfix] Add reset prefix cache for online serving (#22726 ) Signed-off-by: iAmir97 <Amir.balwel@embeddedllm.com> Signed-off-by: iAmir97 <71513472+iAmir97@users.noreply.github.com> Co-authored-by: iAmir97 <Amir.balwel@embeddedllm.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-08-14 04:04:18 -07:00
Harry Mellor	f4efda821d	Remove Phi 4 Flash configuration workaround (#22723 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-08-14 04:03:49 -07:00
Nick Hill	eb08487b18	[BugFix] Threadsafe close async zmq sockets (#22877 ) Signed-off-by: Nick Hill <nhill@redhat.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-14 03:44:29 -07:00
Isotr0py	7c3a0741c6	[Bugfix] Fix `PixtralHFImagePixelInputs` dynamic shape check (#22827 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-14 02:35:43 -07:00
Louie Tsai	00e3f9da46	vLLM Benchmark suite improvement (#22119 ) Signed-off-by: Tsai, Louie <louie.tsai@intel.com> Signed-off-by: Louie Tsai <louie.tsai@intel.com> Co-authored-by: Li, Jiang <bigpyj64@gmail.com>	2025-08-14 07:12:17 +00:00
Robert Shaw	a353bd083d	[CI] remove flaky v0 test (#22864 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2025-08-13 21:41:51 -07:00
Ilya Markov	1d20c34717	[CI] Fix `tests/distributed/test_ca_buffer_sharing.py` (#22849 ) Signed-off-by: ilmarkov <imarkov@redhat.com> Co-authored-by: ilmarkov <imarkov@redhat.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-08-13 20:09:30 -07:00
Will Eaton	b6af24fba7	[CI][Entrypoints]: add filter to generation to filter out invalid tool calls (#22826 ) Signed-off-by: Will Eaton <weaton@redhat.com>	2025-08-13 20:09:07 -07:00
Cyrus Leung	0ca2393b47	[CI/Build] Increase pooling tolerance to pass CI (#22844 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: mgoin <mgoin64@gmail.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2025-08-13 18:52:48 -04:00
Jialin Ouyang	31a500c86f	[Core] [N-gram SD Optimization][1/n] Propose tokens with a single KMP (#22437 ) Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>	2025-08-13 14:44:06 -07:00
Luka Govedič	4e8614e88b	Move checklist in PR template (#22852 ) Signed-off-by: Luka Govedic <lgovedic@redhat.com>	2025-08-13 21:38:35 +00:00
kliuae	c6cd5ca3d3	[ROCm][Bugfix] Fix compilation error in topk softmax fused kernel (#22819 ) Signed-off-by: kliuae <kuanfu.liu@embeddedllm.com>	2025-08-13 13:45:03 -07:00
Isotr0py	df0e0f023e	[CI/Build] Skip gpt_big model test because of broken HF model (#22848 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-13 20:36:28 +00:00
Cyrus Leung	b4b78d6317	[CI/Build] Fix param mismatch in `test_eagle_correctness` (#22847 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-13 10:55:25 -07:00
Nicolò Lucchesi	12817a8ac7	[CI] Fix `tests/v1/e2e/test_kv_sharing_fast_prefill.py` import on test (#22815 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-08-13 10:35:50 -07:00
Cyrus Leung	c9232d41f4	[CI/Build] Update VLM common tests (#22841 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-13 10:03:05 -07:00
HWH	9bd9294f0e	[Bugfix] Fix MiniCPMV Image input inference failed (#22813 ) Signed-off-by: HWH <67449739+jio-H@users.noreply.github.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-08-13 09:41:41 -07:00
Roger Wang	da2705198f	[Misc] clear and separate error messages for input too long and input + max-tokens too long (#22803 ) Signed-off-by: Roger Wang <hey@rogerw.me>	2025-08-13 07:22:56 -07:00
Cyrus Leung	19b927e52d	[Core] Use individual MM items in P0/P1 cache and model runner (#22570 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-13 07:18:07 -07:00
milesial	20d65aa755	[Frontend] Multithreaded async multimodal load_bytes (#22710 ) Signed-off-by: Alexandre Milesi <30204471+milesial@users.noreply.github.com> Co-authored-by: Alexandre Milesi <30204471+milesial@users.noreply.github.com>	2025-08-13 06:09:26 -07:00
Gh0u1L5	b159c0a67a	Fix GGUF loader for Qwen3 MoE. (#22785 ) Signed-off-by: Gh0u1L5 <Gh0u1L5@outlook.com>	2025-08-13 06:08:23 -07:00
Yuanyuan Chen	6772bb0f7d	Remove unnecessary CUDA sync of qwen image and video preprocess (#22792 ) Signed-off-by: cyy <cyyever@outlook.com> Signed-off-by: Yuanyuan Chen <cyyever@outlook.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-08-13 06:07:28 -07:00
Chen Zhang	fceafaf582	[Bugfix][mamba] Fix type annotation of Mamba2Metadata (#22787 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-08-13 06:07:09 -07:00
Nicolò Lucchesi	6b794c756c	[Nixl][CI] Fix tests (#22806 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-08-13 06:03:53 -07:00
Chi Zhang	98deac3879	[FEATURE] support custom vllm tuned config path for fused moe triton kernels (#22791 ) Signed-off-by: Chi Zhang <zhangchi.usc1992@bytedance.com>	2025-08-13 20:27:25 +08:00
Kdump	653124bd46	[Frontend] Add chunked processing to handle long inputs in embedding models (#22280 ) Signed-off-by: x22x22 <wadeking@qq.com> Signed-off-by: Kdump <rootshellexp@gmail.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Maximilien de Bayser <maxdebayser@gmail.com> Co-authored-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-13 04:14:24 -07:00
wangxiyuan	0b1bdac6af	[Platform] Custom ops support for FusedMoe (#22509 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-08-13 04:12:00 -07:00
Giancarlo Delfin	d94e3026de	[V1] Add tree drafting tests for eagle spec decoding (#22705 ) Signed-off-by: Giancarlo Delfin <gdelfin@meta.com>	2025-08-13 04:11:28 -07:00
633WHU	3f52738dce	[Doc] Add max_lora_rank configuration guide (#22782 ) Signed-off-by: chiliu <cliu_whu@yeah.net>	2025-08-13 04:10:07 -07:00
Duc-Viet Hoang	a01e0018b5	[Bugfix] Fix Nemotron VL image processing (#22739 ) Co-authored-by: ducviet00-h2 <viet.d.hoang@h2corporation.jp>	2025-08-13 03:11:36 -07:00
Yuxuan Zhang	9e7e5baaa8	[Model] Add missing prefix to glm4_1v (#22716 ) Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com>	2025-08-13 01:23:33 -07:00
zzh142857	d16aa3dae4	[Model] Add option to run Step3VisionEncoder in DP (#22697 ) Signed-off-by: zzh142857 <chaorenzhaozhenghao@gmail.com>	2025-08-13 00:09:13 -07:00
Chen Zhang	6807af8f46	[gpt-oss] upgrade gpt-oss to v0.0.3 and add version check (#22768 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-08-12 21:37:26 -07:00
shixianc	4c558cf62e	[Perf] Support topk softmax fused kernel for broader num_experts (#22211 ) Signed-off-by: Shixian Cui <shixian@amazon.com> Co-authored-by: Shixian Cui <shixian@amazon.com>	2025-08-12 21:34:47 -07:00
Wentao Ye	77a6bf07ae	[Bug] Fix Unexpected Keyword Argument 'w1_bias' (#22757 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-08-12 21:31:47 -07:00
Michael Goin	4082338a25	Remove unneeded ROCm platform import when using CUDA (#22765 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-08-12 21:26:38 -07:00
Michael Goin	c6b928798e	Force TRTLLM attention for gpt-oss on SM100 (#22678 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-08-12 21:22:16 -07:00
Michael Goin	b1361c7273	[Bugfix] Fix default enable for CUTLASS MLA on SM100 (#22738 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-08-12 21:22:05 -07:00
Po-Han Huang (NVIDIA)	4f0f844b16	Fix cuda illegal mem access with Llama4 TP8 + rms_norm custom op (#22701 ) Signed-off-by: Po-Han Huang <pohanh@nvidia.com>	2025-08-12 21:21:50 -07:00
Woosuk Kwon	c5830381af	[V0 Deprecation] Remove args for multi-step scheduling (#22779 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai>	2025-08-12 20:38:18 -07:00
Woosuk Kwon	d31f97cf57	[Misc] Remove tests/multi_step/__init__.py (#22778 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai>	2025-08-12 20:21:18 -07:00
Woosuk Kwon	71683ca6f6	[V0 Deprecation] Remove multi-step scheduling (#22138 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai>	2025-08-12 20:18:39 -07:00
Michael Goin	e18859298d	Add hardware plugins to installation doc (#22732 ) Signed-off-by: Michael Goin <mgoin64@gmail.com> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-08-12 17:14:46 -07:00

1 2 3 4 5 ...

8565 Commits