xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-07-12 17:07:27 +08:00

Author	SHA1	Message	Date
youkaichao	1aa427fdc1	[Kernels] Add Flash Linear Attention Kernels (#24518 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-09-10 00:04:41 +08:00
wang.yuqi	19332c0479	[Model] Systematic support for fp32 head, pooling models part (#23810 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-09 07:29:50 -07:00
Tyler Michael Smith	955c624915	[Bugfix][Wide EP] Fix redundant work when using DeepEP, TP Attn, and EP MoE (#24134 ) Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com>	2025-09-08 19:01:51 -07:00
tomeras91	e041314184	[Bugfix] Fix mamba2 prefill chunking (#23279 ) Signed-off-by: Tomer Asida <57313761+tomeras91@users.noreply.github.com> Signed-off-by: tomeras91 <57313761+tomeras91@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-09-08 11:42:41 +00:00
Didier Durand	f4962a6d55	[Doc]: fix typos in Python comments (#24417 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-09-08 00:22:16 -07:00
Jee Jee Li	62f66be1f7	[Bugfix] Fix Qwen3-coder moe tuned config (#24072 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-09-07 05:19:46 +00:00
Saman A. Pour	75334956c2	QWEN3 Thinking Fused MoE kernels Optimization configs (#24330 ) Signed-off-by: Saman Keon <samanamp@outlook.com>	2025-09-07 03:18:54 +00:00
Woosuk Kwon	4172235ab7	[V0 deprecation] Deprecate V0 Neuron backend (#21159 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-09-06 16:15:18 -07:00
Isotr0py	00a4e56d8d	[Bugfix] Fix broken deepseek fp8 TP weights loading (#24367 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-06 09:23:12 -07:00
Isotr0py	53b19ccdd5	[Core] Allow disabling TP sharding for parallel Linear layer (#23024 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: Isotr0py <2037008807@qq.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-09-05 22:53:58 -07:00
Didier Durand	35bf193864	[Doc]: fix typos in Python comments (#24294 ) Signed-off-by: Didier Durand <durand.didier@gmail.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-09-05 19:41:12 -07:00
Saman A. Pour	482e52f56c	QWEN3 Coder Fused MoE kernels Optimization configs (#24266 ) Signed-off-by: Saman Keon <samanamp@outlook.com>	2025-09-04 20:33:43 +00:00
Jee Jee Li	94866d7c93	[Misc] Slight improve deepgemm print (#24085 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-09-04 16:06:51 +00:00
Didier Durand	83609ca91d	[Doc]: fix typos in Python comments (#24173 ) Signed-off-by: Didier Durand <durand.didier@gmail.com> Co-authored-by: Russell Bryant <rbryant@redhat.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-09-04 08:52:17 -07:00
nvjullin	37241077d5	[Misc] Removed force_fp8_e4m3fnuz from FP8LinearOp (#23725 ) Signed-off-by: Julien Lin <jullin@nvidia.com> Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2025-09-04 09:25:40 -04:00
whx	3efb9f4d95	[Attention][Platform] Refactor MLA to support Custom Op (#23332 ) Signed-off-by: whx-sjtu <2952154980@qq.com>	2025-09-04 02:46:37 -07:00
Li, Jiang	57b1ce94f7	[CPU] Refactor CPU unquantized linear (#24150 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-09-04 14:28:45 +08:00
bnellnm	e9b92dcd89	[Kernels] Overlap shared experts with send/recv (#23273 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-09-03 12:35:18 -04:00
qscqesze	6997a25ac6	[Model] Remove useless code from MiniMax implementation (#23982 ) Signed-off-by: QscQ <qscqesze@gmail.com> Signed-off-by: qingjun <qingjun@minimaxi.com>	2025-09-03 11:27:04 +00:00
Didier Durand	02d411fdb2	[Doc]: fix typos in Python comments (#24115 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-09-02 21:14:07 -07:00
Didier Durand	d7e1e59972	[Doc]: fix typos in Python comments (#24093 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-09-02 21:05:45 -07:00
co63oc	1bd007f234	fix some typos (#24071 ) Signed-off-by: co63oc <co63oc@users.noreply.github.com>	2025-09-02 20:44:50 -07:00
Kyuyeun Kim	9480ae24e3	[Bugfix] Fix packed_factor missing attribute error (#23902 ) Signed-off-by: Kyuyeun Kim <kyuyeunk@google.com>	2025-09-02 10:56:31 -07:00
Kyle Sayers	1c41310584	[Bugfix] Fix transform_config parsing in Compressed Tensors (#23945 ) Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>	2025-09-02 13:54:10 -04:00
wang.yuqi	e0653f6c0b	[Model] Classification models support logit_bias / sigmoid_normalize (#24031 ) Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-09-02 16:48:57 +00:00
Yan Ma	7be0cb8e9e	[XPU][Feature] fp8 online quantization support for XPU (#23148 ) Signed-off-by: Yan Ma <yan.ma@intel.com> Co-authored-by: Qiming Zhang <qiming1.zhang@intel.com>	2025-09-02 04:06:53 +00:00
Asaf Joseph Gardin	2b41cbbf03	[V1][Mamba1] - FP32 SSM Kernel Support (#23506 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-09-01 20:53:00 -07:00
Didier Durand	0235103cbb	[Doc]: fix typos in Python comments (#24042 ) Signed-off-by: Didier Durand <durand.didier@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-09-01 19:07:45 -07:00
Woosuk Kwon	5685370271	[Chore][V0 Deprecation] Move LogProb to a separate file (#24055 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-09-01 12:07:53 -07:00
Kwai-Keye	7c8271cd1e	[Model]: support KeyeVL-1_5-8B (#23838 ) Signed-off-by: wangruitao <wangruitao@kuaishou.com> Co-authored-by: wangruitao <wangruitao@kuaishou.com>	2025-09-01 03:50:27 -07:00
Didier Durand	107284959a	[Doc]: fix typos in Python comments (#24026 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-09-01 09:38:20 +00:00
Jun-Howie	acc1a6e10a	Fix the bug related to loading GPTP INT3 weights. (#23328 ) Signed-off-by: JunHowie <JunHowie@aliyun.com> Co-authored-by: JunHowie <JunHowie@aliyun.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-01 05:39:57 +00:00
JartX	183a70967a	[BUGFIX] GPTQ quantization compatibility for Qwen3 MOE models (AutoGPTQ and AutoRound-GPTQ) (#23994 ) Signed-off-by: JartX <sagformas@epdcenter.es> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-01 03:33:40 +00:00
Thomas Parnell	4071c76cf3	[V1] [Hybrid] Move MiniMaxLinearAttention into layers/mamba (#23831 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-08-30 00:16:15 -07:00
Xin Yang	8fb85b7bb6	Add routed_scaling_factor to MoE grouped topk (#23123 ) Signed-off-by: Xin Yang <xyangx@amazon.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-08-29 21:36:48 -07:00
Michael Goin	b7adf94c4a	Tuned H100/H200 triton fp8 block configs for fused_qkv_a_proj (#23939 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-08-29 10:28:35 -07:00
EduardDurech	1cf3753b90	[MODEL] `Apertus` and `XIELU` (#23068 ) Signed-off-by: EduardDurech <39579228+EduardDurech@users.noreply.github.com> Co-authored-by: AllenHaoHuang <allenhuangdd@gmail.com>	2025-08-29 20:29:18 +08:00
wang.yuqi	d9e00dbd1f	[Performance] V1 Classify Models E2E Performance Optimization (#23541 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-08-29 03:12:32 -07:00
Maximilien de Bayser	2554b27baa	[V0 Deprecation] Remove pooling model support in V0 (#23434 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: Max de Bayser <mbayser@br.ibm.com> Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-08-29 00:04:02 -07:00
Chenheli Hua	2d0afcc9dc	[mrope][Qwen2-VL] Fix edge case where getting index of image/video token can potentially throw in default vl mrope implementation. (#23895 ) Signed-off-by: Chenheli Hua <huachenheli@outlook.com>	2025-08-28 23:29:13 -07:00
Jinghui Zhang	5264015d74	[BugFix][AMD][Deepseek] fix a dtype mismatch error for deepseek running on AMD (#23864 ) Signed-off-by: Jinghui Zhang <jinghuizhang0804@gmail.com>	2025-08-28 22:54:12 -07:00
Chaojun Zhang	235c9db8a7	[XPU] support data parallel for MoE models on XPU (#22887 ) Signed-off-by: chzhang <chaojun.zhang@intel.com>	2025-08-29 09:23:04 +08:00
elvischenv	16a45b3a28	[NVIDIA] Support SiluMul + NVFP4 quant fusion (#23671 ) Signed-off-by: jindih <jindih@nvidia.com> Signed-off-by: elvischenv <219235043+elvischenv@users.noreply.github.com> Co-authored-by: jindih <jindih@nvidia.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Luka Govedic <lgovedic@redhat.com>	2025-08-28 19:36:50 +00:00
Po-Han Huang (NVIDIA)	95089607fa	[Model][gpt-oss] Support DP+EP for GPT-OSS with FlashInfer trtllm-gen MoE (#23819 ) Signed-off-by: Po-Han Huang <pohanh@nvidia.com>	2025-08-28 06:56:20 -07:00
Didier Durand	d3da2eea54	[Doc]: fix typos in Python scripts (#23828 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-08-28 05:37:38 -07:00
JartX	3462c1c522	[FIXBUG] Add return_success parameter to moe_wna16_weight_loader function (#22797 ) Signed-off-by: JartX <sagformas@epdcenter.es> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-08-28 09:03:22 +00:00
Kyle Sayers	22feac8e95	[Transform] [Quantization] Add transforms to compressed tensors (#22486 )	2025-08-28 02:43:48 -04:00
Michael Goin	a781e84ec2	[Perf] Tune configs for triton block fp8 gemm H100/H200 (#23748 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-08-28 11:12:53 +08:00
Michael Goin	f9ca2b40a0	[Bugfix] Fix Marlin NVFP4 for modelopt (#23659 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-08-27 17:48:16 -04:00
Yongye Zhu	082cc07ef8	DP/EP Support for gpt-oss with deepep-ht comm kernel on SM100 (#23608 )	2025-08-27 17:33:21 -04:00

1 2 3 4 5 ...

1114 Commits