xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-05-15 08:53:33 +08:00

Author	SHA1	Message	Date
Tyler Michael Smith	ab153be252	take 2 Signed-off-by: Tyler Michael Smith <tysmith@redhat.com>	2025-07-11 14:42:44 +00:00
Sanger Steel	5e53c89a74	[Bugfix] [CI] Fix Tensorizer LoRA test (#20760 ) Signed-off-by: Sanger Steel <sangersteel@gmail.com>	2025-07-10 19:07:06 +00:00
shineran96	4bed167768	[Model][VLM] Support JinaVL Reranker (#20260 ) Signed-off-by: shineran96 <shinewang96@gmail.com>	2025-07-10 10:43:43 -07:00
Asher	b140416abf	[Model] Add reason parser for Hunyuan A13B Model. (#20625 ) Signed-off-by: Asher Zhang <asherszhang@tencent.com>	2025-07-10 16:33:26 +00:00
Gregory Shtrasberg	5b8366b61a	[ROCm][Regression] Remove tensor creation that harms performance on ROCm (#20741 ) Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>	2025-07-10 09:22:23 -07:00
Harry Mellor	3482fd7e4e	[Doc] Add engine args back in to the docs (#20674 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-07-10 08:02:40 -07:00
Or Ozeri	cc876d0f29	[KVConnector] Aggregate finished requests on the scheduler (#19555 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2025-07-10 09:22:18 +01:00
Chenyaaang	fdfd409f8f	[TPU][Core]Make load weight exceed hbm error more instructive for customers (#20644 ) Signed-off-by: Chenyaaang <chenyangli@google.com>	2025-07-10 07:01:17 +00:00
Nick Hill	ffbcc9e757	[BugFix] Fix `VllmConfig()` construction on all platforms (#20695 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-07-10 07:00:20 +00:00
Nick Hill	59389c927b	[BugFix][CPU] Fix CPU worker dependency on cumem_allocator (#20696 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-07-10 14:24:20 +08:00
Chauncey	8f2720def9	[Frontend] Support Tool Calling with both `tool_choice='required'` and `$defs`. (#20629 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2025-07-10 13:56:35 +08:00
Seiji Eicher	ad6c2e1a0b	Correct PPMissingLayer handling in Deepseek-V2-Lite PP deployment (#20665 ) Signed-off-by: Seiji Eicher <seiji@anyscale.com>	2025-07-09 20:34:40 -07:00
Varun Sundar Rabindranath	805d62ca88	[Misc] DP : Add ExpertTokensMetadata (#20332 ) Signed-off-by: Varun <vsundarr@redhat.com> Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun <vsundarr@redhat.com>	2025-07-10 00:33:14 +00:00
Woosuk Kwon	7c12a765aa	[Misc] Simplify the prefix caching logic on draft tokens (#20701 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-07-09 14:48:35 -07:00
Yiming	cd587c93ef	[BugFix]: Properly set engine_id when using multi connector (#19487 ) Signed-off-by: Nick Hill <nhill@redhat.com> Co-authored-by: leiyiming <leiyiming@kingsoft.com> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-07-09 20:32:44 +00:00
fxmarty-amd	332d4cb17b	[Feature][Quantization] MXFP4 support for MOE models (#17888 ) Signed-off-by: Felix Marty <felmarty@amd.com> Signed-off-by: Bowen Bao <bowenbao@amd.com> Signed-off-by: Felix Marty <Felix.Marty@amd.com> Co-authored-by: Bowen Bao <bowenbao@amd.com>	2025-07-09 13:19:02 -07:00
Jacob Manning	bf03ff3575	[Kernel] Add Conch backend for mixed-precision linear layer (#19818 ) Signed-off-by: Jacob Manning <jmanning+oss@stackav.com>	2025-07-09 13:17:55 -07:00
Tuan, Hoang-Trong	47043eb678	[Kernel] Triton implementation of causal-conv1d for Mamba-based models (#18218 ) Signed-off-by: Tuan M. Hoang-Trong <tmhoangt@us.ibm.com> Co-authored-by: Tuan M. Hoang-Trong <tmhoangt@us.ibm.com> Co-authored-by: Tyler Michael Smith <tysmith@redhat.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com>	2025-07-09 12:53:55 -07:00
Michael Goin	31b96d1c64	Support Llama 4 for cutlass_moe_fp4 (#20453 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-07-09 15:53:38 -04:00
Liangliang Ma	a3e4e85ece	[XPU][CI] enhance xpu test support (#20652 ) Signed-off-by: Ma, Liangliang <liangliang.ma@intel.com> Co-authored-by: zhenwei-intel <zhenweiliu@habana.ai>	2025-07-09 16:53:09 +00:00
Sanger Steel	4ac9c33f78	[Bugfix] Fix handling of Tensorizer arguments for LoadConfig (#20643 ) Signed-off-by: Sanger Steel <sangersteel@gmail.com>	2025-07-09 15:36:37 +00:00
Li Wang	9ff2af6d2b	[Benchmark] Parameterization of streaming loading of multimodal datasets (#20528 ) Signed-off-by: wangli <wangli858794774@gmail.com>	2025-07-09 13:35:16 +00:00
Chauncey	2155e95ef1	[Bugfix] Fix the issue where `reasoning_content` is `None` when Thinkng is enabled and `tool_choice` is set to `'required'`. (#20662 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2025-07-09 07:39:58 +00:00
Kunshang Ji	b6e7e3d58f	[Intel GPU] support ray as distributed executor backend for XPU. (#20659 ) Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>	2025-07-09 00:36:58 -07:00
Dmitry Rogozhkin	e760fcef22	[XPU] Use spawn with XPU multiprocessing (#20649 ) Signed-off-by: Dmitry Rogozhkin <dmitry.v.rogozhkin@intel.com>	2025-07-09 00:34:28 -07:00
B-201	6bbf1795b7	[Misc] Fix the size of batched_dummy_mm_inputs in profile_run (#20434 ) Signed-off-by: bk-201 <joy25810@foxmail.com>	2025-07-08 20:15:44 -07:00
Duncan Moss	97abeb1daa	[feat] enable SM100 CUTLASS block scaled group gemm for smaller batch sizes (#20640 ) Signed-off-by: Duncan Moss <djm.moss@gmail.com>	2025-07-09 11:03:35 +08:00
zhrrr	34dad19e7b	[Bugfix] set default set cuda_graph_sizes to min(self.max_num_seqs * 2, 512) (#20628 ) Signed-off-by: izhuhaoran <izhuhaoran@qq.com>	2025-07-09 11:02:51 +08:00
Akash kaothalkar	6db31e7a27	[Hardware][PPC64LE] Enable V1 for ppc64le and ARM (#20554 ) Signed-off-by: Akash Kaothalkar <akash.kaothalkar@ibm.com> Co-authored-by: Akash Kaothalkar <akash.kaothalkar@ibm.com> Co-authored-by: Nikhil Gupta <nikhil.gupta2@arm.com>	2025-07-08 20:00:41 -07:00
Ratnam Parikh	c40784c794	[BugFix][Intel GPU] Use refactored API for dist_backend in V1 worker (#20596 ) Signed-off-by: ratnampa <ratnam.parikh@intel.com>	2025-07-08 19:44:23 -07:00
kourosh hakhamaneshi	baed180aa0	[tech debt] Revisit lora request model checker (#20636 ) Signed-off-by: Kourosh Hakhamaneshi <kourosh@anyscale.com>	2025-07-09 09:42:41 +08:00
Kunshang Ji	0b407479ef	[misc]refactor `Platform.set_device` method (#20262 ) Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>	2025-07-09 01:39:47 +00:00
Isotr0py	b9fca83256	[Bugfix] Fix GLM-4.1-V video prompt update (#20635 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-07-08 23:13:58 +00:00
Cyrus Leung	32dffc2772	[Core] Rename `get_max_tokens_per_item` for backward compatibility (#20630 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-07-08 23:11:30 +00:00
Ming Yang	c438183e99	[Bugfix] Fix topk_ids indices_type for CUTLASS w8a8 FP8 MoE (#20166 ) Signed-off-by: Ming Yang <yming@meta.com>	2025-07-08 23:10:57 +00:00
viravera	c6c22f16d3	Revert invalid spellchecker fix on deepseek_vl2 (#20618 )	2025-07-08 15:07:14 +00:00
Cyrus Leung	dd382e0fe3	[Model] Implement missing `get_language_model` for Keye-VL (#20631 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-07-08 07:47:46 -07:00
Yan Ma	a4c23314c0	[xpu]feat: support multi-lora on xpu (#20616 ) Signed-off-by: yan <yan.ma@intel.com>	2025-07-08 22:07:10 +08:00
Nicolò Lucchesi	71d1d75b7a	[PD][Nixl] Remote consumer READ timeout for clearing request blocks (#20139 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-07-08 08:56:40 +01:00
Sanger Steel	72d14d0eed	[Frontend] [Core] Integrate Tensorizer in to S3 loading machinery, allow passing arbitrary arguments during save/load (#19619 ) Signed-off-by: Sanger Steel <sangersteel@gmail.com> Co-authored-by: Eta <esyra@coreweave.com>	2025-07-07 22:47:43 -07:00
Chenyaaang	e34d130c16	[TPU] Temporary fix vmem oom for long model len by reducing page size (#20278 ) Signed-off-by: Chenyaaang <chenyangli@google.com>	2025-07-08 05:16:16 +00:00
Li, Jiang	7721ef1786	[CI/Build][CPU] Fix CPU CI and remove all CPU V0 files (#20560 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-07-07 22:13:44 -07:00
Reid	8369b7c2a9	[Misc] improve error msg (#20604 ) Signed-off-by: reidliu41 <reid201711@gmail.com>	2025-07-07 21:45:18 -07:00
Chauncey	93b9d9f499	[Bugfix]: Fix messy code when using logprobs (#19209 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2025-07-08 11:02:15 +08:00
Woosuk Kwon	31c5d0a1b7	[Optimize] Don't send token ids when kv connector is not used (#20586 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-07-07 19:04:54 -07:00
Ming Yang	afb7cff1b9	[Bugfix] Fix Maverick correctness by filling zero to cache space in cutlass_moe (#20167 ) Signed-off-by: Ming Yang <yming@meta.com>	2025-07-08 01:07:22 +00:00
Kyle Yu	d2e841a10a	[Misc] Improve logging for dynamic shape cache compilation (#20573 ) Signed-off-by: kyolebu <kyu@redhat.com>	2025-07-08 00:48:09 +00:00
Patrick von Platen	14601f5fba	[Config] Refactor mistral configs (#20570 ) Signed-off-by: Patrick von Platen <patrick.v.platen@gmail.com>	2025-07-07 15:25:10 -07:00
Harry Mellor	042d131f39	Fix links in multi-modal model contributing page (#18615 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-07-07 21:13:52 +00:00
rongfu.leng	8e807cdfa4	[Misc] feat output content in stream response (#19608 ) Signed-off-by: rongfu.leng <rongfu.leng@daocloud.io>	2025-07-07 20:45:10 +00:00

1 2 3 4 5 ...

5122 Commits