xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-08-01 07:27:52 +08:00

Author	SHA1	Message	Date
Sheng Lin	f4e884f222	[NIXL][Bugfix] Fix NIXL/RDMA registration failure over CuMemAllocator (#29569 ) Signed-off-by: Somoku <linsh0@protonmail.com> Co-authored-by: Nicolò Lucchesi <nlucches@redhat.com>	2025-12-17 01:52:58 -08:00
Xinyu Chen	3b1d440ede	CustomOp: grouped topk (#29575 ) Signed-off-by: Xinyu Chen <xinyu1.chen@intel.com>	2025-12-17 17:43:00 +08:00
Asaf Joseph Gardin	a9e15c21ef	[Mamba] Removed disable cascade attn in MambaModelConfig (#30712 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-12-17 08:48:53 +00:00
Robin	20fda43151	[Bugfix][Frontend] Prevent IndexError in MiniMax M2 tool parser during streaming extraction (#30555 ) Signed-off-by: WangErXiao <863579016@qq.com>	2025-12-17 16:37:57 +08:00
Yan Ma	4f735babb7	[XPU] fix broken fp8 online quantization for XPU platform (#30831 ) Signed-off-by: Yan Ma <yan.ma@intel.com>	2025-12-17 00:28:13 -08:00
Li, Jiang	0cd5353644	[Bugfix][CPU] Fix CPU backend ROPE dispatch for VL models (#30829 ) Signed-off-by: jiang1.li <jiang1.li@intel.com> Signed-off-by: Li, Jiang <bigpyj64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-12-16 23:25:12 -08:00
Michael Goin	d4d2751732	Update note comment for flashinfer attention warmup (#30711 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-12-16 21:29:03 -08:00
shanjiaz	009a773828	bump up compressed tensors version to 0.13.0 (#30799 ) Signed-off-by: shanjiaz <zsjwpianpian@gmail.com> Co-authored-by: Dipika Sikka <dipikasikka1@gmail.com>	2025-12-16 21:01:04 -08:00
Cyrus Leung	44d3b1df3d	[CI/Build] Fix compatibility between #30244 and #30396 (#30787 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-12-16 20:21:19 -08:00
Fadi Arafeh	bb5ac1fe38	[CPU] Add action to automatically label CPU related PRs (#30678 ) Signed-off-by: Fadi Arafeh <fadi.arafeh@arm.com>	2025-12-17 04:21:07 +00:00
Michael Goin	811cdf5197	Update model-hosting-container-standards to 0.1.10 (#30815 ) Signed-off-by: Michael Goin <mgoin64@gmail.com>	2025-12-16 17:52:14 -08:00
Grzegorz K. Karch	f5db6385a1	Fix nemotron_nas intermediate_size computation (#30795 ) Signed-off-by: Grzegorz Karch <gkarch@nvidia.com>	2025-12-17 01:06:28 +00:00
Amr Mahdi	c0a88df7f7	[docker] Allow kv_connectors install to fail on arm64 (#30806 ) Signed-off-by: Amr Mahdi <amrmahdi@meta.com>	2025-12-16 16:41:57 -08:00
Nicolò Lucchesi	e087fbc393	[MM] Pass FA version in ViT Attn (#30756 ) Signed-off-by: NickLucche <nlucches@redhat.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-12-17 07:54:45 +08:00
Michael Goin	e80455ca8b	Replace deprecated enable_fusion with fuse_norm_quant in test_rms_group_quant (#30817 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-12-16 23:40:47 +00:00
TJian	2410132bb1	[ROCm] [Bugfix] Fix torch sdpa hallucination (#30789 ) Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-12-16 15:32:43 -08:00
Michael Goin	0a1ab1e565	[Perf][Kernels] Vectorize `csrc/activations_kernels.cu` (#29512 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-12-16 14:56:02 -08:00
Wentao Ye	b6ec077e05	[CI] Skip ci failure test (#30804 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-12-16 22:47:53 +00:00
Jinzhen Lin	ce96857fdd	[Kernel][Quantization][MoE] add marlin kernel support for turing (sm75) (#29901 ) Signed-off-by: Jinzhen Lin <jinzhen.ljz@antgroup.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-12-16 14:35:28 -08:00
Daniel Cámpora	eaa82a709a	[Bugfix][DSV32] Fix overflow in topk. (#30754 ) Signed-off-by: Daniel Campora <961215+dcampora@users.noreply.github.com> Signed-off-by: mgoin <mgoin64@gmail.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2025-12-16 14:21:17 -08:00
Roger Wang	f5f51e5931	[Core][MM] Optimize encoder cache manager by operating with embeddings only (#30475 ) Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: Sun Kim <sunytokki@gmail.com>	2025-12-16 14:18:17 -08:00
Lucas Wilkinson	9fec0e13d5	[Attention] Cache attention metadata builds across hybrid KV-cache groups (#29627 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Co-authored-by: Stanislaw Wozniak <stw@zurich.ibm.com>	2025-12-16 17:10:16 -05:00
jiahanc	254a7f8fd6	[Perf] Do FP4 quant before All gather on flashinfer trtllmgen MOE (#30014 ) Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com>	2025-12-16 13:01:48 -08:00
Wentao Ye	f21f5ea38c	[Refactor] Small refactor for group topk (#30562 ) Signed-off-by: yewentao256 <zhyanwentao@126.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>	2025-12-16 14:50:59 -05:00
Nicolò Lucchesi	ca702a14dc	[Frontend] Add `max-completion-token` option to transcription/translation endpoints (#30769 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-12-16 19:36:49 +00:00
Michael Goin	10ee1c64cf	[CI] Generalize gsm8k test args and add Qwen3-Next MTP B200 test (#30723 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-12-16 14:28:34 -05:00
Mark McLoughlin	66c3537e5d	[Docs][API] Remove warning about LoRARequest being internal-only (#30774 ) Signed-off-by: Mark McLoughlin <markmc@redhat.com>	2025-12-16 08:35:46 -08:00
Harry Mellor	e1625498f4	Update where `bytes_to_unicode` is imported from (#30771 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-16 08:05:01 -08:00
Harry Mellor	0b0acc758e	Remove `head_mask` from Ultravox and Swin (#30764 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-16 08:02:41 -08:00
Harry Mellor	af506fd76a	Fix instantiation of `HfHubHTTPError` in LoRA test (#30768 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-16 08:02:24 -08:00
Ming Yang	ce12b407f2	[TRTLLM] Remove the MoE GEMM weight name change (#30713 ) Signed-off-by: Ming Yang <minos.future@gmail.com>	2025-12-16 11:01:38 -05:00
Wentao Ye	59bd5f6a71	[Feat] Enable eplb with default all2all backend (#30559 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-12-16 10:33:52 -05:00
Lucas Wilkinson	00a8d7628c	[BugFix] Fix memory spike in workspace allocation (#30744 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-12-16 06:46:22 -08:00
Isotr0py	4de08ad698	[CI/Build] Skip broken ViT backend functionality test tempoarily (#30782 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-12-16 06:45:25 -08:00
Nicolò Lucchesi	75eb302a2e	[Bugfix] Whisper fix number of allocated CrossAttn blocks per-request (#30772 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-12-16 14:20:19 +00:00
Pleaplusone	9dbbc59b15	[ROCm][MTP] Support MTP for AITER MLA backend (#28624 ) Signed-off-by: ganyi <ygan@amd.com>	2025-12-16 14:10:26 +00:00
Boyuan Feng	104003dc77	update piecewise cudagraph warning when splitting_ops=[] (#30728 ) Signed-off-by: Boyuan Feng <boyuan@meta.com>	2025-12-16 06:09:34 -08:00
TJian	d0fb572929	[ROCm] [AITER] [DOC] Add usage description about check functions in `_aiter_ops` (#30586 ) Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-12-16 13:50:47 +00:00
Harry Mellor	6f15ac5de7	Don'e assume `position_embedding_type` will be present for BERT and RoBERTa models (#30770 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-16 13:40:26 +00:00
Junru Shen	676db55eec	[Bugfix] Fix prefix_repetition routing in bench throughput (#29663 ) Signed-off-by: Junru Shen <jrshen.sjr@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-12-16 01:37:15 -08:00
Jee Jee Li	0e391e7570	[Bugfix] Fix RequestOutput miss lora_request (#30636 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-12-16 01:36:35 -08:00
Andrew Xia	0d0c929f23	[responsesAPI][8] input/output messages for ResponsesParser (#30158 ) Signed-off-by: Andrew Xia <axia@fb.com> Signed-off-by: Andrew Xia <axia@meta.com> Co-authored-by: Andrew Xia <axia@fb.com> Co-authored-by: Chauncey <chaunceyjiang@gmail.com>	2025-12-16 13:54:59 +08:00
Isotr0py	e94384bbad	[Bugfix] Fix broken ViT attention selection for Blackwell device (#30731 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-12-16 05:24:32 +00:00
jiangkuaixue123	b9ff4f2a8d	[feature] extend DBO to XBO (#30120 ) Signed-off-by: jiangkuaixue123 <jiangxiaozhou111@163.com> Co-authored-by: root <root@hk01dgx028.cm.cluster>	2025-12-16 00:04:01 -05:00
Boyuan Feng	c881db364e	improve lazy import test (#30733 ) Signed-off-by: Boyuan Feng <boyuan@meta.com>	2025-12-16 03:12:05 +00:00
Shanshan Shen	3bd9c49158	[CustomOp] Extract ApplyRotaryEmb as CustomOp and unify the dispatch logic (#29873 ) Signed-off-by: shen-shanshan <467638484@qq.com> Co-authored-by: gcanlin <canlinguosdu@gmail.com> Co-authored-by: TJian <tunjian.tan@embeddedllm.com>	2025-12-15 19:08:16 -08:00
Amr Mahdi	ff21a0fc85	[docker] Restructure Dockerfile for more efficient and cache-friendly builds (#30626 ) Signed-off-by: Amr Mahdi <amrmahdi@meta.com>	2025-12-15 18:52:19 -08:00
penfree	bbd850e597	[Bugfix] fix streaming final output for non harmony (#30237 ) Signed-off-by: penfree <qiupengfei@baidu.com> Co-authored-by: penfree <qiupengfei@baidu.com>	2025-12-16 09:03:11 +08:00
Shengqi Chen	511e81e7c9	[BUILD] use sm_100f when compiling flashmla to fix support on sm103 (#30705 ) Signed-off-by: Shengqi Chen <harry-chen@outlook.com>	2025-12-15 14:48:01 -08:00
Matthew Bonanni	a182be4308	[UX][Attention] Add `attention_config` argument to `LLM()` (#30710 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-12-15 17:29:09 -05:00

1 2 3 4 5 ...

12324 Commits