xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-03-17 11:17:11 +08:00

Author	SHA1	Message	Date
Agata Dobrzyniewicz	034c0152db	[Bugfix] Add triton.language.tensor placeholder (#25649 ) Signed-off-by: Agata Dobrzyniewicz <adobrzyniewicz@habana.ai> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:55 -07:00
Tyler Michael Smith	6c6e553644	Revert "[Performance] Move apply_w8a8_block_fp8_linear to an op class… (#25607 ) Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:55 -07:00
Jacob Kahn	004eed39ff	Map CwmForCausalLM to llama and LlamaForCausalLM (#25611 ) Signed-off-by: Jacob Kahn <jacobkahn1@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.io> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:55 -07:00
XuruiYang	c26e7b14d7	[Model] Add LongCat-Flash (#23991 ) Signed-off-by: yangxurui <yangxurui@meituan.com> Co-authored-by: yangxurui <yangxurui@meituan.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:55 -07:00
Wei Wei	b839194931	[Kernel] Support DCP for Triton backend (#25132 ) Signed-off-by: Wei Wei <wwei6@meta.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:55 -07:00
Wentao Ye	b3fd4ed80c	[Refactor] Use DeepGEMM Col Major TMA Aligned Tensor (#25517 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:55 -07:00
Shu Wang	72a5101c7a	Support mnnvl all2allv from Flashinfer (#21003 ) Signed-off-by: Shu Wang <shuw@nvidia.com> Signed-off-by: Shu Wang. <shuw@nvidia.com> Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com> Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Tyler Michael Smith <tlrmchlsmth@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:55 -07:00
Tao Hui	71566e8afc	[Bugfix] Fix DeepSeekV31ToolParser to correctly parse multiple tools in non-streaming output (#25405 ) Signed-off-by: taohui <taohui3@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:55 -07:00
Jonas M. Kübler	f98d4d38c0	[Bug] fix import and unit test (#25558 ) Signed-off-by: Jonas M. Kübler <44084297+jmkuebler@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Woosuk Kwon	9914857f2b	[V0 Deprecation] Remove max_seq_len_to_capture (#25543 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Cyrus Leung	4ca175ea0b	[Misc]] Move processing context to multimodal directory (#25548 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Isotr0py	c39befcead	[CI/Build] Fix v1 OOT registration test (#25547 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Chengji Yao	5b4ba2e1e1	[TPU][Bugfix] fix the missing apply_model in tpu worker (#25526 ) Signed-off-by: Chengji Yao <chengjiyao@google.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Ben Browning	d7fb5a4ae8	[Bugfix] [Frontend] Cleanup gpt-oss non-streaming chat tool calls (#25514 ) Signed-off-by: Ben Browning <bbrownin@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Benjamin Chislett	177c37e960	[Spec Decode] Enable FlashInfer Spec Decoding (#25196 ) Signed-off-by: Benjamin Chislett <benjamin.chislett@centml.ai> Signed-off-by: Benjamin Chislett <bchislett@nvidia.com> Co-authored-by: lhsjohn <huashuoli@tencent.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
0xNullPath	3c62d28bb9	[Model] Support SeedOss Reason Parser (#24263 ) Signed-off-by: Yan Lu <luyan@nvidia.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
ahao-anyscale	9596fbd6e5	[BUG] Allows for RunAI Streamer and Torch.compile cache to be used together (#24922 ) Signed-off-by: ahao-anyscale <ahao@anyscale.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Doug Smith	b50fa00537	Improve output when failing json.loads() on structured output test (#25483 ) Signed-off-by: dougbtv <dosmith@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
kourosh hakhamaneshi	7a8f0a3548	[BugFix] Fix OOM in vLLM replicas by ensuring consistent NCCL memory accounting (#25359 ) Signed-off-by: Kourosh Hakhamaneshi <kourosh@anyscale.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Andrew Xia	eb1f43bc82	[gpt-oss][bugfix] remove logic to require resp_ in ResponseAPI (#25428 ) Signed-off-by: Andrew Xia <axia@meta.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Thomas Parnell	cf0e250200	[V0 Deprecation] Remove placeholder attn (#25510 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Jialin Ouyang	0c11617ff1	[Core] Use KVCacheBlock as much as possible instead of dict[block_id, KVCacheBlock] (#24830 ) Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Isotr0py	930e691c65	[CI/Build] Fix and re-enable v1 PP test on CI (#25496 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Ilya Markov	e49561cd91	Enable symmetric memory all reduce by default only enabling for TP (#25070 ) Signed-off-by: ilmarkov <markovilya197@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
jiahanc	8ba3b17cc1	[Speculators][Speculative Decoding] Fix gpt-oss eagle3 accuracy issue (#25406 ) Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
ElizaWszola	b672b8c3b8	[Performance] Move apply_w8a8_block_fp8_linear to an op class (#24666 ) Signed-off-by: ElizaWszola <ewszola@redhat.com> Signed-off-by: ElizaWszola <elizaw.9289@gmail.com> Signed-off-by: Luka Govedič <lgovedic@redhat.com> Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Luka Govedič <lgovedic@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Amir Samani	56201cfb01	[core] add nccl symmetric memory for all reduce (#24532 ) Signed-off-by: Amir Samani <asamani@nvidia.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Hashem Hashemi	9689be1e8e	[ROCm] Add skinny gemm bias support for dtypes fp16,bf16,fp8 (#24988 ) Signed-off-by: Hashem Hashemi <hashem.hashemi@amd.com> Signed-off-by: Hashem Hashemi <159079214+amd-hhashemi@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Burkhard Ringlein	26da2c6244	[V1][Kernel] Add triton implementation for `reshape_and_cache_flash` (#24503 ) Signed-off-by: Burkhard Ringlein <ngl@zurich.ibm.com> Co-authored-by: Chih-Chieh Yang <chih.chieh.yang@ibm.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Harry Mellor	9cae377a16	Add backward compatibility for `GuidedDecodingParams` (#25422 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Lucas Wilkinson	8c5c35c027	[Core/DBO][2/N] Dual-Batch Overlap add DeepEP High Throughput support and Prefill support (#24845 ) Signed-off-by: Sage Moore <sage@neuralmagic.com> Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com> Signed-off-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Sage Moore <sage@neuralmagic.com> Co-authored-by: yewentao256 <zhyanwentao@126.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Thomas Parnell	f97da2c732	[V1] Remove V0 code paths for Hybrid models (#25400 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Peter Pan	a500f7cc09	[Docs] NixlConnector quickstart guide (#24249 ) Signed-off-by: Peter Pan <Peter.Pan@daocloud.io> Signed-off-by: Peter Pan <peter.pan@daocloud.io> Signed-off-by: Nicolò Lucchesi<nicolo.lucchesi@gmail.com> Co-authored-by: Nicolò Lucchesi <nicolo.lucchesi@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Chauncey	1b75f784b8	[P/D] Support NIXL connector to disconnect during a clean shutdown (#24423 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com> Co-authored-by: Mark McLoughlin <markmc@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Isotr0py	030774abcf	[CI/Build] Fix disabled v1 attention backend selection test (#25471 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Jee Jee Li	59659b74c4	[Core] Optimize LoRA weight loading (#25403 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Andreas Hartel	fb64e67533	[Test]: Hermes tool parser stream output error in Qwen3 case (#25203 ) Signed-off-by: Andreas Hartel <andreas.hartel@aleph-alpha.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Cyrus Leung	215da8510d	[Misc] Move DP for ViT code inside model executor dir (#25459 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Zhikaiiii	c4a15ee240	[Frontend] Add a new xml-based tool parser for qwen3-coder (#25028 ) Signed-off-by: Zhikaiiii <1658973216@qq.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Chendi.Xue	921945c81e	[NIXL][OOT platform] support nixl_connector with oot platform and other nixl_backend (#25121 ) Signed-off-by: Chendi Xue <Chendi.Xue@intel.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Isotr0py	a0b5617263	[V0 deprecation] Remove platform v1 controling interface (#25410 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Nicolò Lucchesi	864bbe36f0	[Bugfix] Fix missing `clear_connector_metadata` (#25397 ) Signed-off-by: NickLucche <nlucches@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Luka Govedič	d96a3fc653	[Bugfix] fix custom op test (#25429 ) Signed-off-by: Luka Govedič <lgovedic@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:54 -07:00
Alec S	aac85cc6d6	[Frontend] Responses API MCP tools for built in tools and to pass through headers (#24628 ) Signed-off-by: Alec Solder <alecs@fb.com> Signed-off-by: Alec S <10566873+alecsolder@users.noreply.github.com> Co-authored-by: Alec Solder <alecs@fb.com> Co-authored-by: Ye (Charlotte) Qi <yeq@meta.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Cyrus Leung	6e9229e919	[CI/Build] Skip Qwen3-VL initialization tests until models are actually released (#25394 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Or Ozeri	ff54b6bfe3	[KV offload][5/N] Add `CPUOffloadingSpec` (#24251 ) Signed-off-by: Or Ozeri <oro@il.ibm.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Luka Govedič	6dbbecd5b2	[torch.compile] Cleanup compilation tests and custom passes, add debug utils, fix DCE bug (#23091 ), fix test (#24376 ), and prep for custom op matching (#24604 ) (#24542 ) Signed-off-by: Luka Govedič <lgovedic@redhat.com> Signed-off-by: luka <lgovedic@redhat.com> Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Lucia Fang	d988b84e8e	[DP] support torchrun external launcher with Data Parallelism (#24899 ) Signed-off-by: Lu Fang <fanglu@fb.com> Signed-off-by: Zhuohan Li <zhuohan123@gmail.com> Co-authored-by: Zhuohan Li <zhuohan123@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Daisy-Ma-coder	2a8bd2b93b	[CLI env var] Add VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH in env variables (#25274 ) Signed-off-by: qqma <qqma@amazon.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: qqma <qqma@amazon.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Nicolò Lucchesi	4bc6b5d2c3	[TPU] Deprecate `xm.mark_step` in favor of ``torch_xla.sync` (#25254 ) Signed-off-by: NickLucche <nlucches@redhat.com> Co-authored-by: Ye (Charlotte) Qi <yeq@meta.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00

1 2 3 4 5 ...

3035 Commits