xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-07-03 05:37:09 +08:00

Author	SHA1	Message	Date
Or Ozeri	cc876d0f29	[KVConnector] Aggregate finished requests on the scheduler (#19555 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2025-07-10 09:22:18 +01:00
Chenyaaang	fdfd409f8f	[TPU][Core]Make load weight exceed hbm error more instructive for customers (#20644 ) Signed-off-by: Chenyaaang <chenyangli@google.com>	2025-07-10 07:01:17 +00:00
Nick Hill	ffbcc9e757	[BugFix] Fix `VllmConfig()` construction on all platforms (#20695 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-07-10 07:00:20 +00:00
Nick Hill	59389c927b	[BugFix][CPU] Fix CPU worker dependency on cumem_allocator (#20696 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-07-10 14:24:20 +08:00
Chauncey	8f2720def9	[Frontend] Support Tool Calling with both `tool_choice='required'` and `$defs`. (#20629 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2025-07-10 13:56:35 +08:00
Seiji Eicher	ad6c2e1a0b	Correct PPMissingLayer handling in Deepseek-V2-Lite PP deployment (#20665 ) Signed-off-by: Seiji Eicher <seiji@anyscale.com>	2025-07-09 20:34:40 -07:00
Michael Goin	49e8c7ea25	Use NVCC `--compress-mode` to reduce binary size by 30% (#20694 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-07-09 18:26:48 -07:00
Varun Sundar Rabindranath	805d62ca88	[Misc] DP : Add ExpertTokensMetadata (#20332 ) Signed-off-by: Varun <vsundarr@redhat.com> Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun <vsundarr@redhat.com>	2025-07-10 00:33:14 +00:00
Michael Goin	b7d9e9416f	[CI/Build] Fix FlashInfer double build in Dockerfile (#20651 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-07-09 17:41:56 -06:00
Woosuk Kwon	7c12a765aa	[Misc] Simplify the prefix caching logic on draft tokens (#20701 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-07-09 14:48:35 -07:00
Yiming	cd587c93ef	[BugFix]: Properly set engine_id when using multi connector (#19487 ) Signed-off-by: Nick Hill <nhill@redhat.com> Co-authored-by: leiyiming <leiyiming@kingsoft.com> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-07-09 20:32:44 +00:00
fxmarty-amd	332d4cb17b	[Feature][Quantization] MXFP4 support for MOE models (#17888 ) Signed-off-by: Felix Marty <felmarty@amd.com> Signed-off-by: Bowen Bao <bowenbao@amd.com> Signed-off-by: Felix Marty <Felix.Marty@amd.com> Co-authored-by: Bowen Bao <bowenbao@amd.com>	2025-07-09 13:19:02 -07:00
Jacob Manning	bf03ff3575	[Kernel] Add Conch backend for mixed-precision linear layer (#19818 ) Signed-off-by: Jacob Manning <jmanning+oss@stackav.com>	2025-07-09 13:17:55 -07:00
Tuan, Hoang-Trong	47043eb678	[Kernel] Triton implementation of causal-conv1d for Mamba-based models (#18218 ) Signed-off-by: Tuan M. Hoang-Trong <tmhoangt@us.ibm.com> Co-authored-by: Tuan M. Hoang-Trong <tmhoangt@us.ibm.com> Co-authored-by: Tyler Michael Smith <tysmith@redhat.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com>	2025-07-09 12:53:55 -07:00
Michael Goin	31b96d1c64	Support Llama 4 for cutlass_moe_fp4 (#20453 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-07-09 15:53:38 -04:00
Li, Jiang	e59ba9e142	[CI/Build] Enlarge tolerance for a CPU multi-modal test (#20684 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-07-09 17:48:52 +00:00
Harry Mellor	403b481573	Remove heading form installation `inc.md` file (#20697 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-07-09 10:42:51 -07:00
Li, Jiang	138709f8d1	[Doc] Update CPU doc (#20676 ) Signed-off-by: jiang1.li <jiang1.li@intel.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-07-09 10:28:30 -07:00
Michael Goin	0bbac1c1b4	[Bench] Add NVFP4 GEMM benchmark script (#20578 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-07-09 13:23:48 -04:00
Liangliang Ma	a3e4e85ece	[XPU][CI] enhance xpu test support (#20652 ) Signed-off-by: Ma, Liangliang <liangliang.ma@intel.com> Co-authored-by: zhenwei-intel <zhenweiliu@habana.ai>	2025-07-09 16:53:09 +00:00
Chengji Yao	eb58f5953d	[TPU][Bugfix] fix test_pallas (#20666 ) Signed-off-by: Chengji Yao <chengjiyao@google.com>	2025-07-09 09:32:48 -07:00
Sanger Steel	4ac9c33f78	[Bugfix] Fix handling of Tensorizer arguments for LoadConfig (#20643 ) Signed-off-by: Sanger Steel <sangersteel@gmail.com>	2025-07-09 15:36:37 +00:00
Reid	efe73d0575	[doc] update doc format (#20673 ) Signed-off-by: reidliu41 <reid201711@gmail.com>	2025-07-09 08:08:19 -07:00
Ricardo Decal	853487bc1b	[Docs] Improve docs for RLHF co-location example (#20599 ) Signed-off-by: Ricardo Decal <rdecal@anyscale.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-07-09 08:06:43 -07:00
Li Wang	9ff2af6d2b	[Benchmark] Parameterization of streaming loading of multimodal datasets (#20528 ) Signed-off-by: wangli <wangli858794774@gmail.com>	2025-07-09 13:35:16 +00:00
Cyrus Leung	70ca5484f5	[Doc] Update notes (#20668 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-07-09 03:46:36 -07:00
Thomas Parnell	5358cce5ff	[V1] [Doc] Update V1 docs for Mamba models (#20499 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-07-09 01:02:41 -07:00
Chauncey	2155e95ef1	[Bugfix] Fix the issue where `reasoning_content` is `None` when Thinkng is enabled and `tool_choice` is set to `'required'`. (#20662 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2025-07-09 07:39:58 +00:00
qscqesze	f95570a52d	[Docs] fix minimax tool_calling docs error (#20667 ) Signed-off-by: qingjun <qingjun@minimaxi.com>	2025-07-09 00:37:07 -07:00
Kunshang Ji	b6e7e3d58f	[Intel GPU] support ray as distributed executor backend for XPU. (#20659 ) Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>	2025-07-09 00:36:58 -07:00
Dmitry Rogozhkin	e760fcef22	[XPU] Use spawn with XPU multiprocessing (#20649 ) Signed-off-by: Dmitry Rogozhkin <dmitry.v.rogozhkin@intel.com>	2025-07-09 00:34:28 -07:00
B-201	6bbf1795b7	[Misc] Fix the size of batched_dummy_mm_inputs in profile_run (#20434 ) Signed-off-by: bk-201 <joy25810@foxmail.com>	2025-07-08 20:15:44 -07:00
Michael Goin	9e0ef888f0	Fix bullets in incremental_build.md (#20642 )	2025-07-09 11:03:41 +08:00
Duncan Moss	97abeb1daa	[feat] enable SM100 CUTLASS block scaled group gemm for smaller batch sizes (#20640 ) Signed-off-by: Duncan Moss <djm.moss@gmail.com>	2025-07-09 11:03:35 +08:00
zhrrr	34dad19e7b	[Bugfix] set default set cuda_graph_sizes to min(self.max_num_seqs * 2, 512) (#20628 ) Signed-off-by: izhuhaoran <izhuhaoran@qq.com>	2025-07-09 11:02:51 +08:00
Akash kaothalkar	6db31e7a27	[Hardware][PPC64LE] Enable V1 for ppc64le and ARM (#20554 ) Signed-off-by: Akash Kaothalkar <akash.kaothalkar@ibm.com> Co-authored-by: Akash Kaothalkar <akash.kaothalkar@ibm.com> Co-authored-by: Nikhil Gupta <nikhil.gupta2@arm.com>	2025-07-08 20:00:41 -07:00
Ricardo Decal	977180c912	[Docs] Improve documentation for multi-node service helper script (#20600 ) Signed-off-by: Ricardo Decal <rdecal@anyscale.com>	2025-07-08 19:44:26 -07:00
Ratnam Parikh	c40784c794	[BugFix][Intel GPU] Use refactored API for dist_backend in V1 worker (#20596 ) Signed-off-by: ratnampa <ratnam.parikh@intel.com>	2025-07-08 19:44:23 -07:00
kourosh hakhamaneshi	baed180aa0	[tech debt] Revisit lora request model checker (#20636 ) Signed-off-by: Kourosh Hakhamaneshi <kourosh@anyscale.com>	2025-07-09 09:42:41 +08:00
Kunshang Ji	0b407479ef	[misc]refactor `Platform.set_device` method (#20262 ) Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>	2025-07-09 01:39:47 +00:00
Wenxin Cheng	5eaf570050	Replace `multiply_add` with `homogeneous_multiply_add` to Address Clang Template Parameter Issue (#20142 ) Signed-off-by: Lu Fang <lufang@fb.com>	2025-07-09 00:30:18 +00:00
QiliangCui	d8ee5a2ca4	[TPU][Bugfix] disable phi-3 test (#20632 ) Signed-off-by: Qiliang Cui <derrhein@gmail.com>	2025-07-08 23:14:26 +00:00
Isotr0py	b9fca83256	[Bugfix] Fix GLM-4.1-V video prompt update (#20635 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-07-08 23:13:58 +00:00
Cyrus Leung	32dffc2772	[Core] Rename `get_max_tokens_per_item` for backward compatibility (#20630 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-07-08 23:11:30 +00:00
Ming Yang	c438183e99	[Bugfix] Fix topk_ids indices_type for CUTLASS w8a8 FP8 MoE (#20166 ) Signed-off-by: Ming Yang <yming@meta.com>	2025-07-08 23:10:57 +00:00
wang.yuqi	baba0389f7	[CI] Increase the threshold of the MTEB RERANK tests (#20615 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-07-08 08:10:11 -07:00
viravera	c6c22f16d3	Revert invalid spellchecker fix on deepseek_vl2 (#20618 )	2025-07-08 15:07:14 +00:00
Cyrus Leung	dd382e0fe3	[Model] Implement missing `get_language_model` for Keye-VL (#20631 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-07-08 07:47:46 -07:00
XiongfeiWei	849590a2a7	Update torch/xla pin to 20250703 (#20589 ) Signed-off-by: Xiongfei Wei <isaacwxf23@gmail.com>	2025-07-08 07:44:02 -07:00
Yan Ma	a4c23314c0	[xpu]feat: support multi-lora on xpu (#20616 ) Signed-off-by: yan <yan.ma@intel.com>	2025-07-08 22:07:10 +08:00

1 2 3 4 5 ...

7593 Commits