xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-04-27 20:07:05 +08:00

Author	SHA1	Message	Date
Didier Durand	9701352e4b	[Doc]: fix typos in Python comments (#24001 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-08-31 08:21:59 +00:00
Yong Hoon Shin	9748c5198b	[CI] Fix broken compile tests due to unsupported SiluMul+Nvfp4Quant fusion (#23973 ) Signed-off-by: Yong Hoon Shin <yhshin@meta.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-08-30 00:14:43 -07:00
yzds	0dc9532065	[BUGFIX ] fix undefined silu_and_mul_nvfp4_quant (#23929 ) Signed-off-by: hongchao <hongchao@msh.team> Signed-off-by: Richard Zou <zou3519@gmail.com> Co-authored-by: hongchao <hongchao@msh.team> Co-authored-by: Richard Zou <zou3519@gmail.com> Co-authored-by: Richard Zou <zou3519@users.noreply.github.com>	2025-08-29 09:36:39 -07:00
wangxiyuan	6597d7a456	[Platform] import activation_quant_fusion for CUDA only (#23882 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-08-28 22:54:16 -07:00
elvischenv	16a45b3a28	[NVIDIA] Support SiluMul + NVFP4 quant fusion (#23671 ) Signed-off-by: jindih <jindih@nvidia.com> Signed-off-by: elvischenv <219235043+elvischenv@users.noreply.github.com> Co-authored-by: jindih <jindih@nvidia.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Luka Govedic <lgovedic@redhat.com>	2025-08-28 19:36:50 +00:00
Angela Yi	db74d60490	[Bugfix] Add fake mode around passes (#23349 ) Signed-off-by: angelayi <yiangela7@gmail.com>	2025-08-28 11:25:56 -04:00
Didier Durand	d3da2eea54	[Doc]: fix typos in Python scripts (#23828 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-08-28 05:37:38 -07:00
Kunshang Ji	fce10dbed5	[XPU] Add xpu torch.compile support (#22609 ) Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>	2025-08-27 05:33:27 +00:00
nvjullin	7ea22e42d5	[Misc] Add override for allreduce fusion thresholds (#23639 ) Signed-off-by: Julien Lin <jullin@nvidia.com>	2025-08-26 15:53:04 +00:00
Copilot	6fad29b11b	Remove graph_pool as member of VllmBackend and argument to CUDAGraphWrapper (#23385 ) Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: copilot-swe-agent[bot] <198982749+Copilot@users.noreply.github.com> Co-authored-by: ProExpertProg <11367180+ProExpertProg@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2025-08-25 19:34:15 -07:00
weiliang	ae067888d6	Update Flashinfer to 0.2.14.post1 (#23537 ) Signed-off-by: Siyuan Fu <siyuanf@nvidia.com> Signed-off-by: siyuanf <siyuanf@nvidia.com> Signed-off-by: Weiliang Liu <weiliangl@nvidia.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Siyuan Fu <siyuanf@nvidia.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-08-25 18:30:44 -07:00
Lucia Fang	c7fc6b1354	fix incompatibililty with non cuda platform for nvfp4 (#23478 ) Signed-off-by: Lu Fang <fanglu@fb.com> Co-authored-by: Lucia (Lu) Fang <fanglu@meta.com>	2025-08-24 15:35:41 -07:00
elvischenv	24d0c9e6ed	[NVIDIA][torch.compile] Support Flashinfer TRTLLM FP8-q/kv NVFP4-out Attention Kernel (#22703 ) Signed-off-by: elvischenv <219235043+elvischenv@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2025-08-22 22:09:05 +00:00
Didier Durand	22cf679aad	[Doc]: fix various typos in multiple files (#23179 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-08-22 10:38:46 -07:00
Yong Hoon Shin	dfd2382039	[torch.compile] Support conditional torch.compile per module (#22269 ) Signed-off-by: Yong Hoon Shin <yhshin@meta.com>	2025-08-20 16:52:59 +00:00
elvischenv	03752dba8f	[NVIDIA] Support Flashinfer TRTLLM FP8-q/kv/out Attention Kernel (#21716 ) Signed-off-by: elvischenv <219235043+elvischenv@users.noreply.github.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2025-08-19 08:22:15 -04:00
Xiao	a4454e9401	chore: disable enable_cpp_symbolic_shape_guards (#23048 ) Signed-off-by: Xiao Liu <xiszishu@gmail.com>	2025-08-18 23:08:05 -04:00
fhl2000	74f441f4b5	[Core] Allow full cudagraph with separate attention routines and orthogonal to compilation, add support for FA2 and FlashInfer (#20059 ) Signed-off-by: fhl <2410591650@qq.com> Signed-off-by: fhl2000 <63384265+fhl2000@users.noreply.github.com> Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: Lucas Wilkinson <lwilkins@redhat.com> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>	2025-08-15 10:01:39 -04:00
Gregory Shtrasberg	031ca762d7	[ROCm][Bugfix] Compilation passes fix (#22202 ) Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>	2025-08-04 19:12:28 -07:00
Xiao	554df8a6a2	Revert "[compile][startup] Disable C++ compilation of symbolic shapes" (#22122 ) Signed-off-by: Xiao Liu <xiszishu@gmail.com>	2025-08-02 09:03:30 -07:00
Animesh Jain	9659bc7f27	[compile][startup] Disable C++ compilation of symbolic shapes (#20836 ) Signed-off-by: Animesh Jain <anijain@umich.edu>	2025-08-01 10:38:52 -07:00
Richard Zou	8026a335a1	[BugFix] Update AttnFusionPass cache key (#21947 ) Signed-off-by: Richard Zou <zou3519@gmail.com>	2025-08-01 07:11:29 -07:00
TJian	26b5f7bd2a	[BUG] [ROCm] Fix import bug on ROCm (#22083 ) Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-08-01 05:25:20 -07:00
Ilya Markov	6e672daf62	Add FlashInfer allreduce RMSNorm Quant fusion (#21069 ) Signed-off-by: ilmarkov <imarkov@redhat.com> Signed-off-by: ilmarkov <markovilya197@gmail.com> Co-authored-by: ilmarkov <imarkov@redhat.com>	2025-07-31 13:58:38 -07:00
Zhengxu Chen	7349d5268b	[ez] Remove a trailing space from compilation/decorators.py (#22028 )	2025-07-31 09:46:07 -07:00
cascade	287f527f54	[Feature] Add async tensor parallelism for scaled mm (#20155 ) Signed-off-by: cascade812 <cascade812@outlook.com>	2025-07-30 17:23:41 -04:00
Richard Zou	04e38500ee	[Bugfix] VLLM_V1 supports passing other compilation levels (#19340 ) Signed-off-by: Richard Zou <zou3519@gmail.com>	2025-07-29 09:35:58 -04:00
Chaojun Zhang	d9f9a3fd96	[XPU] Conditionally import CUDA-specific passes to avoid import errors on xpu platform (#21036 ) Signed-off-by: chzhang <chaojun.zhang@intel.com>	2025-07-24 23:23:36 +08:00
Yong Hoon Shin	4ac7713e32	Add test case for compiling multiple graphs (#21044 ) Signed-off-by: Yong Hoon Shin <yhshin@meta.com>	2025-07-23 11:00:47 -07:00
Xin Li	ae268b6326	Fix Flashinfer Allreduce+Norm enable disable calculation based on `fi_allreduce_fusion_max_token_num` (#21325 ) Signed-off-by: XIn Li <xinli@nvidia.com>	2025-07-22 12:42:31 -07:00
Ilya Markov	37a7d5d74a	[Misc] Refactor AllReduceFusionPass. Remove parameter (#20918 ) Signed-off-by: ilmarkov <imarkov@redhat.com> Co-authored-by: ilmarkov <imarkov@redhat.com>	2025-07-15 06:57:40 +00:00
Boyuan Feng	91b3d190ae	[cold start] replace VLLM_COMPILE_DEPYF with debug_dump_dir (#20940 ) Signed-off-by: Boyuan Feng <boyuan@meta.com>	2025-07-15 13:02:17 +08:00
Richard Zou	ba8c300018	[BugFix] VLLM_DISABLE_COMPILE_CACHE=1 should disable all reads and writes from the cache (#20942 ) Signed-off-by: Richard Zou <zou3519@gmail.com>	2025-07-15 01:26:18 +00:00
Yong Hoon Shin	61e20828da	Fall back if flashinfer comm module not found (#20936 ) Signed-off-by: Yong Hoon Shin <yhshin@meta.com>	2025-07-14 23:11:18 +00:00
Boyuan Feng	c1c8ca57ff	[cold start time] add envs.VLLM_COMPILE_DEPYF to guard decompile (#20790 ) Signed-off-by: Boyuan Feng <boyuan@meta.com>	2025-07-11 23:06:13 -07:00
Ilya Markov	fc0f41d10a	Integration SM100 FlashInfer fused allreduce RMSNorm (#20691 ) Signed-off-by: ilmarkov <imarkov@redhat.com> Co-authored-by: ilmarkov <imarkov@redhat.com>	2025-07-11 18:58:15 -07:00
Luka Govedič	762be26a8e	[Bugfix] Upgrade depyf to 0.19 and streamline custom pass logging (#20777 ) Signed-off-by: Luka Govedic <lgovedic@redhat.com> Signed-off-by: luka <lgovedic@redhat.com>	2025-07-11 00:15:22 -07:00
Luka Govedič	31d5c1797f	[Perf][fp8] Use CustomOp abstraction for fp8 quant for better perf (#19830 ) Signed-off-by: Luka Govedic <lgovedic@redhat.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2025-07-11 04:56:28 +00:00
Kyle Yu	d2e841a10a	[Misc] Improve logging for dynamic shape cache compilation (#20573 ) Signed-off-by: kyolebu <kyu@redhat.com>	2025-07-08 00:48:09 +00:00
Jee Jee Li	1caca5a589	[Misc] Add SPDX-FileCopyrightText (#20428 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-07-04 07:40:42 +00:00
Boyuan Feng	c01d1c5aba	use .dev for version comparison with pytorch nightly release (#20031 ) Signed-off-by: Boyuan Feng <boyuan@meta.com>	2025-06-24 21:52:16 +00:00
cascade	e6327c9b3e	[Feature] Support sequence parallelism for static fp8 quantization (#19181 ) Signed-off-by: cascade812 <cascade812@outlook.com>	2025-06-23 16:09:02 -04:00
Richard Zou	ed33349738	[BugFix] Fix use_cudagraph=False (#19612 ) Signed-off-by: Richard Zou <zou3519@gmail.com>	2025-06-19 08:23:12 +08:00
Luka Govedič	3597b06a4f	[CUDA] Enable full cudagraph for FlashMLA (#18581 ) Signed-off-by: luka <luka@neuralmagic.com>	2025-06-13 18:12:26 +00:00
youkaichao	d70bc7c029	[torch.compile] reorganize the cache directory to support compiling multiple models (#19064 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-06-13 15:23:25 +08:00
Boyuan Feng	ce688ad46e	use base version for version comparison (#19587 ) Signed-off-by: Boyuan Feng <boyuan@meta.com>	2025-06-13 15:09:34 +08:00
Luka Govedič	f98548b9da	[torch.compile][ROCm] Fuse quantization onto attention using a torch.compile pass (#16756 ) Signed-off-by: Luka Govedič <lgovedic@redhat.com> Co-authored-by: Sage Moore <sage@neuralmagic.com>	2025-06-12 08:31:04 -07:00
Richard Zou	eaa2e51088	[Bugfix] Re-enable use_cudagraph in vLLM v1 (#19299 ) Signed-off-by: Richard Zou <zou3519@gmail.com>	2025-06-08 08:56:12 +08:00
Li, Jiang	4555143ea7	[CPU] V1 support for the CPU backend (#16441 )	2025-06-03 18:43:01 -07:00
Simon Mo	02f0c7b220	[Misc] Add SPDX-FileCopyrightText (#19100 ) Signed-off-by: simon-mo <simon.mo@hey.com>	2025-06-03 11:20:17 -07:00

1 2 3

134 Commits