xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-01-18 02:24:27 +08:00

Author	SHA1	Message	Date
Jiangyun Zhu	ab3e80042e	[torch.compile] Enable silu_mul_fp8_quant fusion without custom ops enabled (#27146 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-10-22 00:22:39 -04:00
Lain	09a7e6f617	[Deepseek v3.2] Remove extra logics in indexer (#26465 ) Signed-off-by: Siyuan Fu <siyuanf@nvidia.com> Signed-off-by: Daniel Campora <961215+dcampora@users.noreply.github.com> Signed-off-by: Lain <siyuanf@nvidia.com> Co-authored-by: Daniel Campora <961215+dcampora@users.noreply.github.com>	2025-10-21 23:34:03 +00:00
Alexander Matveev	344a0017c0	[Performance] Dual stream execution of "shared_experts" and "selected_experts" inside FusedMoE (#26440 ) Signed-off-by: Alexander Matveev <amatveev@redhat.com>	2025-10-21 21:38:29 +00:00
Wentao Ye	86ed77022d	[Feature] Batch Invariant for R1 TP 8 on Blackwell (#27229 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-21 10:25:55 -07:00
JartX	ba09652de2	[ROCM] Enable CompressedTensorsWNA16 (#27187 ) Signed-off-by: JartX <sagformas@epdcenter.es>	2025-10-21 10:43:23 -04:00
Daniel Cámpora	80e9452984	[Deepseek v3.2] Optimize top_k_per_row (#26763 ) Signed-off-by: Daniel Campora <961215+dcampora@users.noreply.github.com>	2025-10-21 08:30:07 +00:00
Roger Wang	c3a2c6ac5f	[MM][Core] Decouple ViT backend from LM backend (#27061 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2025-10-21 00:30:10 -07:00
Zebing Lin	be4445072c	[Fix][Spec Decode] Fix llama4 draft loading with different quantization (#27136 ) Signed-off-by: linzebing <linzebing1995@gmail.com>	2025-10-20 23:19:00 -07:00
Benjamin Chislett	f381cf2302	[Bugfix] Fix broken MTP weight loading for FP8 KV Scales (#27227 ) Signed-off-by: Benjamin Chislett <bchislett@nvidia.com>	2025-10-20 22:51:44 -07:00
Varun Sundar Rabindranath	5ff5d94e77	[Bugfix] Fix gpt-oss w4a8 DP/EP on B200 (#26729 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-10-21 01:51:14 -04:00
Shu Wang	f95da13c3d	[ModelOpt] Load w13/w2_input_scale for all experts, nvfp4 (#26135 ) Signed-off-by: Shu Wang <shuw@nvidia.com> Signed-off-by: Shu Wang. <shuw@nvidia.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-10-21 01:50:31 -04:00
Po-Han Huang (NVIDIA)	aef368aa08	[BugFix] GPT-OSS Attention DP + MoE TP weight loading issue (#24032 ) Signed-off-by: Po-Han Huang <pohanh@nvidia.com>	2025-10-21 04:03:47 +00:00
Chen Wu	5f6cbf60d6	[Feature][Kernel]FusedMoE LoRA (#21229 ) Signed-off-by: wuchen <cntryroa@gmail.com> Signed-off-by: banjuede <lmklhc@163.com> Signed-off-by: Chen Wu <cntryroa@gmail.com> Signed-off-by: Danielle Robinson <dmmaddix@amazon.com> Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Signed-off-by: bk-201 <joy25810@foxmail.com> Co-authored-by: wuchen <wuchen@zetyun.com> Co-authored-by: Nathan Van Gheem <vangheem@gmail.com> Co-authored-by: banjuede <lmklhc@163.com> Co-authored-by: Danielle Robinson <dmmaddix@amazon.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: bk-201 <joy25810@foxmail.com>	2025-10-21 03:01:37 +00:00
Fadi Arafeh	163965d183	[cpu] Dispatch un-quantized linear to oneDNN/ACL by default for AArch64 (#27183 ) Signed-off-by: Fadi Arafeh <fadi.arafeh@arm.com> Co-authored-by: Michael Yang <Michael.Yang@arm.com>	2025-10-21 02:02:58 +00:00
Isotr0py	352c0c8a28	[Quantization] Automatically infer AWQ `modules_to_not_convert` field (#26909 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-21 01:49:28 +00:00
Heng Guo	87778d5f00	[Feature][Quantization] auto_round support for mixed bits quantization (#23812 ) Signed-off-by: n1ck-guo <heng.guo@intel.com> Signed-off-by: Heng Guo <heng.guo@intel.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-10-20 22:23:30 +00:00
shivampr	4d0f266113	[Kernel][Model] Tune fused_moe Triton configs for Qwen3-30B A3/A3B on H100 (FP8/BF16) (#26268 ) Signed-off-by: Shivam <shivampr.dev@gmail.com>	2025-10-20 07:48:01 -07:00
Eugene Khvedchenya	e93ff6c8b9	Nemotron Nano V2 VL + EVS Video Support (#27107 ) Signed-off-by: Eugene Khvedchenia <ekhvedchenia@nvidia.com> Signed-off-by: Natan Bagrov <nbagrov@nvidia.com> Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: Natan Bagrov <nbagrov@nvidia.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-20 22:19:11 +08:00
Jiangyun Zhu	9fce7bee74	[Kernel] Accelerate solve_tril with TMA (#26746 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-10-20 05:39:02 +00:00
Yi Zhang	f32bf7582e	[Model][VLM] Support Bee-8B Model (#27012 ) Signed-off-by: uyzhang <yi.zhang.4096@gmail.com> Signed-off-by: Yi Zhang <zhangyi970819@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-20 02:31:26 +00:00
Cyrus Leung	d31f7844f8	[Misc] Move utils to avoid conflicts with stdlib, and move tests (#27169 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-19 05:20:55 -07:00
Jianyu Huang	221bf72577	output type conversion fix (#27159 )	2025-10-19 08:10:07 +00:00
Lucas Wilkinson	c2bba69065	[BugFix] Disable fp8 kv-cache by default for DeepSeek V3.2 (#27121 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-10-18 22:05:23 +00:00
Isotr0py	6ac5e06f7c	[Chore] Clean up pytorch helper functions in `vllm.utils` (#26908 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: isotr0py <2037008807@qq.com>	2025-10-18 09:48:22 -07:00
Lukas Geiger	5c2acb270a	[Models][QwenVL] Remove unnecessary `.contiguous()` calls (#27106 ) Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>	2025-10-18 07:05:05 -07:00
Nicolò Lucchesi	b26b70bec4	[Misc] Refactor `get_kv_cache_spec` into `AttentionLayerBase` (#26587 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-10-18 13:51:21 +00:00
Wentao Ye	245e4f2c01	[Feature] Batch Invariant: Support DeepGEMM and Blackwell (#27127 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-18 09:28:05 -04:00
Varun Sundar Rabindranath	30a33b92ee	[Misc] Rev DeepEP (#27122 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>	2025-10-18 14:54:29 +08:00
ZiTian Zhao	c981f0ea78	[Perf] Add H100 fused MoE config (#25398 ) Signed-off-by: zitian.zhao <zitian.zhao@tencentmusic.com>	2025-10-18 02:21:27 +00:00
Zhuohan Li	d29483b58a	[Minor] Remove unnecessary error message (#27115 ) Signed-off-by: Zhuohan Li <zhuohan123@gmail.com>	2025-10-17 20:02:12 +00:00
Isotr0py	3125d79950	[Chore] Remove unused `PolyNorm` layer (#27110 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-17 19:03:43 +00:00
vllmellm	e33ee23ee3	[Bugfix] [AITER] [ROCm] Fix Quark MoE Quant Config and AITER Fused MoE quant type logic (#27029 ) Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>	2025-10-17 12:51:10 -06:00
Aleksandr Malyshev	0925b28a8e	[ROCM] MoE fp4 CK kernel (#26545 ) Signed-off-by: Aleksandr Malyshev <maleksan@amd.com> Co-authored-by: Aleksandr Malyshev <maleksan@amd.com>	2025-10-17 14:06:33 -04:00
燃	4c91a28e30	[bugfix] Qwen3-VL fix video incorrect timestamp calculations while do_sample_frames=True (#27104 ) Co-authored-by: 松灵 <wpf272043@alibaba-inc.com>	2025-10-17 16:26:33 +00:00
Luka Govedič	bd7157a071	[torch.compile] Enable attention and allreduce fusion without custom ops enabled (#24604 ) Signed-off-by: Luka Govedič <lgovedic@redhat.com> Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2025-10-17 08:10:23 -06:00
Reima Karhila (AMD)	c253745eb8	[Harware][AMD][Model] Triton MoE tuning configs for GLM-4.5 for MI350 and MI355 (#25586 ) Signed-off-by: Reima Karhila <reima.karhila@amd.com> Signed-off-by: xaguilar <Xavier.AguilarFruto@amd.com> Co-authored-by: xaguilar <Xavier.AguilarFruto@amd.com>	2025-10-17 04:56:12 -07:00
Jee Jee Li	daec4d2624	[Model]Improve Qwen3VLMoeForConditionalGeneration packed_modules_mapping (#27096 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-17 04:47:00 -07:00
Harry Mellor	6c9fdbf725	[Docs] Replace `rst` style double-backtick with `md` single-backtick (#27091 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-17 02:47:34 -07:00
Mengqing Cao	e20eba753b	[VLM][Refactor] Remove useless func `get_input_positions` in `MRotaryEmbedding` (#27088 ) Signed-off-by: MengqingCao <cmq0113@163.com>	2025-10-17 02:00:30 -07:00
zhrrr	75c7ad9918	[Kernel][Performance] Fuse float cast and renormalize to topk softmax kernel (#26717 ) Signed-off-by: zhuhaoran <zhuhaoran.zhr@alibaba-inc.com> Signed-off-by: izhuhaoran <izhuhaoran@qq.com>	2025-10-17 07:30:35 +00:00
Said Taghadouini	3aeb19a39e	[Model] Add support for LightOnOCR (#26916 ) Signed-off-by: Said Taghadouini <taghadouinisaid@gmail.com> Signed-off-by: Said Taghadouini <84044788+staghado@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-10-17 05:05:24 +00:00
Cyrus Leung	8c017b3490	[Model] Always use Transformers backend for PaliGemma and Gemma3-MM (#26715 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-17 05:03:35 +00:00
Tao He	bde9e2272a	[Bugfix][Qwen] fixes the weights dtype in qwen3_next: it is actually a bfloat16 (#27030 ) Signed-off-by: Tao He <linzhu.ht@alibaba-inc.com>	2025-10-17 03:37:52 +00:00
Boyuan Feng	08405609cc	disable graph partition in custom op (#26952 ) Signed-off-by: Boyuan Feng <boyuan@meta.com> Signed-off-by: Boyuan Feng <fby.1994@gmail.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2025-10-17 11:08:47 +08:00
Lukas Geiger	4d055ef465	Remove unused imports (#26972 ) Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>	2025-10-16 19:51:17 -07:00
Cyrus Leung	4d4d6bad19	[Chore] Separate out `vllm.utils.importlib` (#27022 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-17 00:48:59 +00:00
jiahanc	41d3071918	[NVIDIA] [Perf] Update to leverage flashinfer trtllm FP4 MOE throughput kernel (#26714 ) Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-10-16 16:20:25 -07:00
Harry Mellor	fb5e10d3fb	Refactor Transformers backend to use mixins (#26906 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-16 21:50:39 +00:00
Bram Wasti	b2f78cbad4	[small][batch invariance] Rename the env and internal flags to simplify usage (#26855 ) Signed-off-by: Bram Wasti <bwasti@meta.com>	2025-10-16 21:40:25 +00:00
Wentao Ye	b3dda72c23	[Feature] Migrate DeepGEMM API from `get_m_alignment_for_contiguous_layout` to `get_mk_alignment_for_contiguous_layout` (#26935 ) Signed-off-by: yewentao256 <zhyanwentao@126.com> Signed-off-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-10-16 16:46:48 -04:00

1 2 3 4 5 ...

3067 Commits