xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-05-16 00:29:10 +08:00

Author	SHA1	Message	Date
Jee Jee Li	27c6c2f98c	[Bugfix] Fix MoE LoRA bin/pt loading (#31161 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-12-23 19:09:15 +08:00
quanliu	a37328fc5c	[Feature] Batch invariant: Lora (#30097 ) Signed-off-by: quanliu <18646313696@163.com>	2025-12-23 10:32:47 +08:00
gnovack	5a3adf581e	fused_moe_lora PDL improvements (#30716 ) Signed-off-by: gnovack <gnovack@amazon.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-12-17 19:55:00 -08:00
Mark McLoughlin	66c3537e5d	[Docs][API] Remove warning about LoRARequest being internal-only (#30774 ) Signed-off-by: Mark McLoughlin <markmc@redhat.com>	2025-12-16 08:35:46 -08:00
Yongtao Huang	e4605d225e	[Misc] Fix safetensors import for safe_open (#30300 ) Signed-off-by: Yongtao Huang <yongtaoh2022@gmail.com>	2025-12-09 06:50:06 +00:00
Jee Jee Li	67312cad11	[Misc] Split the LoRA code (#30253 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-12-09 00:59:31 +08:00
Jee Jee Li	80433e225e	[LoRA] Reduce the loading time of MoE LoRA (#30243 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-12-08 13:29:47 +00:00
Yongtao Huang	dd97e047e0	Fix broken multiline assert in `LoRAModelManager.register_module` (#30032 ) Signed-off-by: Yongtao Huang <yongtaoh2022@gmail.com>	2025-12-04 22:04:42 +08:00
Jee Jee Li	dd38ba3a26	[Bugfix] Fix adapter_enabled IMA (#29977 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-12-04 12:51:15 +08:00
Xin Yang	a491b0911b	[LoRA] Support FusedMoE LoRA Triton kernel for mxfp4 (#29708 ) Signed-off-by: Xin Yang <xyangx@amazon.com> Signed-off-by: Xin Yang <105740670+xyang16@users.noreply.github.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-30 10:37:25 +08:00
Jee Jee Li	39e63dec7c	[LoRA] Cleanup LoRA unused code (#29611 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-11-28 22:52:58 -08:00
Huamin Li	3fd1fb0b60	Revert "[LoRA] Support FusedMoE LoRA Triton kernel for mxfp4 (#28971 )" (#29697 ) Signed-off-by: Huamin Li <3ericli@gmail.com>	2025-11-28 15:26:52 -08:00
Xin Yang	745a3bae1a	[LoRA] Support FusedMoE LoRA Triton kernel for mxfp4 (#28971 ) Signed-off-by: Xin Yang <xyangx@amazon.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-28 10:48:28 +08:00
Didier Durand	66d3d5422c	[Doc]: fixing typos in diverse files (#29492 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-11-27 07:15:50 -08:00
Jee Jee Li	2f5f9acd55	[LoRA] Continue optimizing MoE LoRA weight loading (#29322 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-27 05:56:28 -08:00
Jee Jee Li	c069086b9c	[Bugfix] Fix getting device for MoE LoRA (#29475 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-26 23:16:07 -08:00
Jee Jee Li	1073ba68b0	[LoRA] Optimize 3D MoE logic (#29222 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-24 10:27:23 +08:00
Jee Jee Li	1489902b53	[LoRA] Cleanup FusedMoEWithLoRA (#29187 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-22 04:01:30 +00:00
Jee Jee Li	9875be6431	[LoRA][2/2]Remove LoRA extra vocab (#28545 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-21 09:46:43 +08:00
prashanth058	0cca9b4d13	[Bugfix] Fix precision loss in LoRA-wrapped RowParallelLinear by fusing bias into GEMM (#28972 ) Signed-off-by: prashanth058 <prashanth.dannamaneni@uipath.com>	2025-11-20 03:50:37 +00:00
gnovack	d69062c67a	add support for --fully-sharded-loras in fused_moe (#28761 ) Signed-off-by: gnovack <gnovack@amazon.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-19 16:32:00 +08:00
Didier Durand	083cf326dc	[Doc]: fix typos in various files (#28863 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-11-17 20:32:14 -08:00
Harry Mellor	5f3cd7f7f2	[Docs] Update the name of `Transformers backend` -> `Transformers modeling backend` (#28725 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-14 16:34:14 +00:00
Fanli Lin	dbbe0c756a	[XPU] Support Triton path for LoRA operations on XPU (#28511 ) Signed-off-by: Fanli Lin <fanli.lin@intel.com>	2025-11-13 05:31:42 +00:00
bnellnm	a1448b4b69	[Kernels] Split up fused_moe/layer.py, isolate more modular kernel code (#28064 )	2025-11-11 07:29:02 -07:00
Chaojun Zhang	7dbe6d81d6	Fix Fused MoE LoRA Triton kernel bug (#28450 ) Signed-off-by: chaojun-zhang <chaojun.zhang@intel.com>	2025-11-11 20:46:47 +08:00
caozuoba	40e2eeeb92	[Kernel] Optimization of the mm_k operator. (#28280 ) Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-10 16:03:46 +00:00
Xiaohong (Sean) Chen	d0c7792004	[Bugfix][LoRA][Spec Decode] Support LoRA with speculative decoding (#21068 ) Signed-off-by: Sean Chen <xiaohong_chen1991@hotmail.com> Signed-off-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com> Co-authored-by: Danielle Robinson <dcmaddix@gmail.com> Co-authored-by: Haipeng Li <li2haipeng@gmail.com> Co-authored-by: li2haipeng <44383182+li2haipeng@users.noreply.github.com>	2025-11-08 01:58:22 +00:00
Jee Jee Li	21b82f4ea2	[Kernel] LoRA triton kernels support PDL (#27402 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-07 08:05:48 +00:00
Varun Sundar Rabindranath	ca6f755d24	[BugFix] Fix FusedMoELoRA + ModularKernel Integration (#28237 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>	2025-11-06 22:53:30 +00:00
Michael Yao	518ec6b722	[Docs] Clean up README_TUNING.md (#28088 ) Signed-off-by: windsonsea <haifeng.yao@daocloud.io>	2025-11-05 19:01:34 +00:00
yugong333	2ec401bc39	Load tuned fused_moe_lora shrink and expand kernel configs separately (#27435 ) Signed-off-by: Yu Gong <yu3.gong@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-04 18:27:35 +08:00
li2haipeng	6ddae74054	[LoRA] Lora shrink swizzle (#27694 ) Signed-off-by: li2haipeng <44383182+li2haipeng@users.noreply.github.com> Signed-off-by: Haipeng Li <li2haipeng@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-04 09:30:20 +08:00
gnovack	294c805f1d	Early exit for MoE LoRA kernels (#27131 ) Signed-off-by: gnovack <gnovack@amazon.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-03 20:22:17 +08:00
yugong333	29de3cdee4	Adding SplitK in fused_moe_lora kernel (#27818 ) Signed-off-by: Yu Gong <yu3.gong@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-01 12:55:46 +08:00
Jee Jee Li	bc4486d609	[Kernel] Enable FusedMoEModularKernel support bias (#27754 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-01 02:05:12 +00:00
Jee Jee Li	f4e8154076	[Kernel] Enable moe LoRA kernel support FP16 (#27468 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-27 19:48:37 +08:00
Cyrus Leung	7c2bdb83dc	[Misc] Clean up utils (#27552 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-27 09:05:40 +00:00
Danielle Robinson	9932ed6a83	[Kernel] Adding split_K implementation for fused_moe_lora (#27291 ) Signed-off-by: Danielle Robinson <dmmaddix@amazon.com> Signed-off-by: Danielle Robinson <dcmaddix@gmail.com> Co-authored-by: Danielle Robinson <dmmaddix@amazon.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-27 02:05:24 -07:00
gnovack	a806c14cc7	[Performance][LoRA] add context varying params to 'do_not_specialize' in fused moe lora (#27445 ) Signed-off-by: gnovack <gnovack@amazon.com>	2025-10-27 06:31:55 +00:00
Jonathan Chen	ca76486a16	[Chore] Separate out `vllm.utils.platform_utils.py` (#27374 ) Signed-off-by: Jonathan <chenleejonathan@gmail.com>	2025-10-23 19:08:06 +00:00
Jee Jee Li	9771e0b432	[Bugfix] Add missing 'is_internal_router' attribute to FusedMoEWithLoRA (#27351 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-22 08:19:12 -07:00
Jee Jee Li	abf3db40ef	[Core] Handle MoE LoRA edge cases (#27335 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-22 13:14:33 +00:00
gnovack	8e4ca4d14e	Bugfix - pass 'max_num_tokens_padded' into 'moe_lora_align_block_size' (#27311 ) Signed-off-by: gnovack <gnovack@amazon.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-22 12:23:57 +00:00
Chen Wu	5f6cbf60d6	[Feature][Kernel]FusedMoE LoRA (#21229 ) Signed-off-by: wuchen <cntryroa@gmail.com> Signed-off-by: banjuede <lmklhc@163.com> Signed-off-by: Chen Wu <cntryroa@gmail.com> Signed-off-by: Danielle Robinson <dmmaddix@amazon.com> Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Signed-off-by: bk-201 <joy25810@foxmail.com> Co-authored-by: wuchen <wuchen@zetyun.com> Co-authored-by: Nathan Van Gheem <vangheem@gmail.com> Co-authored-by: banjuede <lmklhc@163.com> Co-authored-by: Danielle Robinson <dmmaddix@amazon.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: bk-201 <joy25810@foxmail.com>	2025-10-21 03:01:37 +00:00
Andy Lo	b63f2143f8	[LoRA] LoRA cuda graph specialization (#25914 ) Signed-off-by: Andy Lo <andy@mistral.ai> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-20 04:21:09 +00:00
Isotr0py	6ac5e06f7c	[Chore] Clean up pytorch helper functions in `vllm.utils` (#26908 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: isotr0py <2037008807@qq.com>	2025-10-18 09:48:22 -07:00
Jee Jee Li	87bc0c492f	[Bugfix] Fix ReplicatedLinearWithLoRA (#27065 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-17 04:43:16 +00:00
Cyrus Leung	4d4d6bad19	[Chore] Separate out `vllm.utils.importlib` (#27022 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-17 00:48:59 +00:00
li2haipeng	d4d1a6024f	[Lora]Load tuned multi-lora kernel configs from json files (#26319 ) Signed-off-by: li2haipeng <44383182+li2haipeng@users.noreply.github.com> Signed-off-by: Haipeng Li <li2haipeng@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-15 09:45:14 +00:00

1 2 3 4 5

231 Commits