xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2025-12-21 12:55:32 +08:00

Author	SHA1	Message	Date
Simon Danielsson	80cad257da	[Bugfix] Typos in error message for missing model config file (#25339 ) Signed-off-by: simondanielsson <simon.danielsson99@hotmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Roger Wang	5fd95c77af	[MM][Perf] Minor Optimization on Qwen3-VL `fast_pos_embed_interpolate` (#25337 ) Signed-off-by: Roger Wang <hey@rogerw.io> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Isotr0py	f6278e3065	[V1] Add sliding window support to Flex Attention backend (#24089 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	9e9b3b4ff9	[V0 Deprecation] Remove V0 MP executor (#25329 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	20235c1822	[V0 Deprecation] Remove from_seq_group methods (#25330 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Wenlong Wang	059a13a3bc	[Multi Modal][Performance] Fused Q,K's apply_rope in more models (#25005 ) Signed-off-by: wwl2755 <wangwenlong2755@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.io> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	a6cf307fa8	[V0 Deprecation] Remove V0 model runner base & simplify worker base (#25328 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Huamin Li	b18dde7478	[Doc] improve test-pipeline.yaml documentation (#25305 ) Signed-off-by: Huamin Li <3ericli@gmail.com> Co-authored-by: Lu Fang <30275821+houseroad@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	7cdd90211b	[V0 Deprecation] Remove V0 core (#25321 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai> Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	86fdd686be	[CI] Skip tests failing on main (#25326 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	171592330b	[Chore] Remove unused sampler in models (#25324 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	4bb2eb42d4	[V0 Deprecation] Remove V0 Output Processor (#25320 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai> Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	32d43a5a9e	[V0 Deprecation] Remove LLMEngine (#25033 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai> Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Michael Yao	d9ba479eee	[Docs] Fix warnings in vllm/profiler and vllm/transformers_utils (#25220 ) Signed-off-by: windsonsea <haifeng.yao@daocloud.io> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Cyrus Leung	9cfa7697c1	[V0 Deprecation] Enable the remaining multimodal tests in V1 (#25307 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
lirong	9fc86d2802	[Core] Enable sharded state loader for V1 engine and enhance test coverage (#25308 ) Signed-off-by: pengdrumli <pengdrumli@tencent.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Isotr0py	bc76128565	[Model] Cleanup InternViT's data parallel implementation (#25306 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Manoel Marques	af4dedf6d3	Generate _ModelInfo properties file when loading to improve loading speed (#23558 ) Signed-off-by: Manoel Marques <manoel.marques@ibm.com> Signed-off-by: Manoel Marques <manoelmrqs@gmail.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Wenlong Wang	dad5f4d16d	[Docs] Fix warnings in mkdocs build (continued) (#25042 ) Signed-off-by: wwl2755 <wangwenlong2755@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Michael Goin	c2fdc71c91	[CI Failure] Disable FlashInfer RoPE to unblock CI (#25299 ) Signed-off-by: mgoin <mgoin64@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Cyrus Leung	e33af1e0c2	[V1] Support `LLM.apply_model` (#18465 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Roger Wang	0ac65d171b	[Bugfix] Fix Qwen3-VL-MoE weight loading for EP (#25300 ) Signed-off-by: Roger Wang <hey@rogerw.io> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Chen Zhang	267b4421b7	[Hybrid Allocator] Support full attention with different hidden size (#25101 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Cyrus Leung	8f3edbd93f	[Optimization] Avoid repeated model architecture conversion for pooling models (#25261 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Chauncey	239aef5c9f	[Bugfix] fix tool call arguments is empty (#25223 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com> Co-authored-by: xin.li <xin.li@daocloud.io> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Chendi.Xue	9d70c103aa	[BUG FIX][NON-CUDA]quick fix to avoid call cudagraph_unsafe in attention (#25298 ) Signed-off-by: Chendi Xue <Chendi.Xue@intel.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Nick Hill	d897924b45	[BugFix] Exclude self when checking for port collision (#25286 ) Signed-off-by: Nick Hill <nhill@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
JartX	b7c986673d	[BUGFIX] GPTQ quantization compatibility for Qwen3 Next MOE models (AutoGPTQ and AutoRound-GPTQ) (#25268 ) Signed-off-by: JartX <sagformas@epdcenter.es> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Harry Mellor	14e1e9b09a	Improve weight loading for encoder models in Transformers backend (#25289 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Nick Hill	ea01b17b6f	[Misc] Support more collective_rpc return types (#25294 ) Signed-off-by: Nick Hill <nhill@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Nick Hill	123e7ad492	[BugFix] Ensure appropriate guards in destructors (#25284 ) Signed-off-by: Nick Hill <nhill@redhat.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Boyuan Feng	ce65ce2d61	[torch.compile] CUDAGraph Inductor partition integration (#24281 ) Signed-off-by: Boyuan Feng <boyuan@meta.com> Signed-off-by: Boyuan Feng <fby.1994@gmail.com> Signed-off-by: boyuanfeng <boyuan@meta.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Andrew Sansom	d4006bd84d	[docs] Prompt Embedding feature support (#25288 ) Signed-off-by: Andrew Sansom <andrew@protopia.ai> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Andrew Sansom	7493472a9b	test: Remove vestigial skip for prompt embeds tests after landing v1 Prompt Embeds support (#25291 ) Signed-off-by: Andrew Sansom <andrew@protopia.ai> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Maximilien de Bayser	937ab7e85e	Don't skip special tokens with hermes-style tool calling (#25281 ) Signed-off-by: Max de Bayser <mbayser@br.ibm.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Lucas Kabela	bc997c18ca	[Bugfix] Remove VLLM_TEST_DYNAMO_FULLGRAPH_CAPTURE #2969 (#25090 ) Signed-off-by: Lucas Kabela <lucaskabela@meta.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Nick Hill	d55c6010ac	[BugFix] Fix async scheduling CPU tensor race take 2 (#25279 ) Signed-off-by: Nick Hill <nhill@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Lucia Fang	5051270200	allow disable flashinfer prefill (#25276 ) Signed-off-by: Lu Fang <fanglu@fb.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Zhiyu	6e94161f94	Enable modelopt gemma3 nvfp4/fp8, make workflow more robust (#22771 ) Signed-off-by: Zhiyu Cheng <zhiyuc@nvidia.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Wentao Ye	e54a476058	[Compile] Fix Compile Warning for Ignoring `MIN_BLOCK_PER_SM` (#25193 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Alec S	8da7b98366	[Frontend] Responses API messages out, just harmony for now (#24985 ) Signed-off-by: Alec Solder <alecs@fb.com> Co-authored-by: Alec Solder <alecs@fb.com> Co-authored-by: Ye (Charlotte) Qi <yeq@meta.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
David-Wen	9da51c77a9	Fix: Correct FusedMoE layer reference in auto_round quantization (#24818 ) Signed-off-by: David-Wen <18927700430@163.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
nvjullin	d0a1364188	[BugFix] Make FlashInferMetadataBuilder non-blocking (#25040 ) Signed-off-by: Julien Lin <jullin@nvidia.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Michael Goin	2c3ba7362f	[Perf] Use FlashInfer RoPE for RotaryEmbedding.forward_cuda when available (#21126 ) Signed-off-by: mgoin <mgoin64@gmail.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Harry Mellor	bfd32678e6	Specify platform in `pip-compile` `pre-commit` hook so it runs on MacOS (#25273 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:52 -07:00
bnellnm	e29f599d30	[Bugfix] Fix chunked a2_scales in modular kernels (#25264 ) Signed-off-by: Bill Nell <bnell@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:52 -07:00
Varun Sundar Rabindranath	b6724e95f8	[Bugfix] GPT OSS Attritbute error on H100 (#25228 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:52 -07:00
qizixi	17b9f3a83d	Optimize triton unified attention performance for sliding window attention (#24390 ) Signed-off-by: zixi-qi <qizixi@meta.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:52 -07:00
Or Ozeri	378c68bead	[KV offload][4/N] Offloading KV connector (#22595 ) Signed-off-by: Or Ozeri <oro@il.ibm.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:52 -07:00
Lucia Fang	67f0418b1d	[bugfix] fix structured outputs key missing issue from #24929 (#25195 ) Signed-off-by: Lu Fang <fanglu@fb.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:52 -07:00

... 6 7 8 9 10 ...

10065 Commits