xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-06-21 22:17:25 +08:00

Author	SHA1	Message	Date
Chauncey	fdc5b43d20	[Bugfix]: Fix final_res_batch list index out of range error (#21055 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2025-07-17 00:29:09 -07:00
David Ben-David	4fcef49ec4	[V1] [KVConnector] Fix MultiprocExecutor worker output aggregation (#21048 ) Signed-off-by: David Ben-David <davidb@pliops.com> Co-authored-by: David Ben-David <davidb@pliops.com>	2025-07-17 13:29:45 +08:00
Lucas Wilkinson	76b494444f	[Attention] Refactor attention metadata builder interface (#20466 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-07-17 04:44:25 +00:00
zhiweiz	c11013db8b	[Meta] Llama4 EAGLE Support (#20591 ) Signed-off-by: qizixi <qizixi@meta.com> Co-authored-by: qizixi <qizixi@meta.com>	2025-07-15 21:14:15 -07:00
Peter Pan	1eb2b9c102	[CI] update typos config for CI pre-commit and fix some spells (#20919 ) Signed-off-by: Peter Pan <Peter.Pan@daocloud.io>	2025-07-15 21:12:40 -07:00
Chauncey	34cda778a0	[Frontend] OpenAI Responses API supports input image (#20975 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2025-07-15 18:59:36 -06:00
Woosuk Kwon	d4d309409f	Implement Async Scheduling (#19970 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-07-14 23:01:46 -07:00
XiongfeiWei	d4170fad39	Use w8a8 quantized matmul Pallas kernel (#19170 ) Signed-off-by: Xiongfei Wei <isaacwxf23@gmail.com>	2025-07-15 03:06:33 +00:00
wangxiyuan	1e9438e0b0	[MISC] Move bind_kv_cache to worker module (#20900 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-07-14 09:40:00 +00:00
Maroon Ayoub	66f6fbd393	[Prefix Cache] Add reproducible prefix-cache block hashing using SHA-256 + CBOR (64bit) (#20511 ) Signed-off-by: Maroon Ayoub <maroon.ayoub@ibm.com>	2025-07-14 02:45:31 +00:00
22quinn	8632e831ba	[Core] Add `update_config` RPC method (#20095 ) Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>	2025-07-14 00:49:18 +00:00
Woosuk Kwon	f45a332886	[Sched] Enhance the logic to remove stopped requests from queues (#20739 )	2025-07-12 15:33:13 -07:00
Alexander Matveev	5b032352cc	[Attention] MLA - Flashinfer Ragged Prefill (#20034 )	2025-07-10 20:17:47 -07:00
Nathan Hoos	d6902ce79f	[V0][V1][Core] Add outlines integration for V1, and update V0 integration. (#15975 ) Signed-off-by: Nathan Hoos <thwackyy.y@gmail.com>	2025-07-10 15:30:26 -04:00
Yiming	cd587c93ef	[BugFix]: Properly set engine_id when using multi connector (#19487 ) Signed-off-by: Nick Hill <nhill@redhat.com> Co-authored-by: leiyiming <leiyiming@kingsoft.com> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-07-09 20:32:44 +00:00
Chengji Yao	eb58f5953d	[TPU][Bugfix] fix test_pallas (#20666 ) Signed-off-by: Chengji Yao <chengjiyao@google.com>	2025-07-09 09:32:48 -07:00
Dmitry Rogozhkin	e760fcef22	[XPU] Use spawn with XPU multiprocessing (#20649 ) Signed-off-by: Dmitry Rogozhkin <dmitry.v.rogozhkin@intel.com>	2025-07-09 00:34:28 -07:00
QiliangCui	d8ee5a2ca4	[TPU][Bugfix] disable phi-3 test (#20632 ) Signed-off-by: Qiliang Cui <derrhein@gmail.com>	2025-07-08 23:14:26 +00:00
Nicolò Lucchesi	71d1d75b7a	[PD][Nixl] Remote consumer READ timeout for clearing request blocks (#20139 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-07-08 08:56:40 +01:00
Chauncey	93b9d9f499	[Bugfix]: Fix messy code when using logprobs (#19209 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2025-07-08 11:02:15 +08:00
Woosuk Kwon	462b269280	Implement OpenAI Responses API [1/N] (#20504 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-07-06 18:32:13 -07:00
Isotr0py	32c9be2200	[v1] Re-add fp32 support to v1 engine through FlexAttention (#19754 ) Signed-off-by: Isotr0py <2037008807@qq.com> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-07-05 09:41:10 +00:00
Thomas Parnell	2f35a022e6	Enable V1 for Hybrid SSM/Attention Models (#20016 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Co-authored-by: Stanislaw Wozniak <stw@zurich.ibm.com> Co-authored-by: Tyler Michael Smith <tysmith@redhat.com> Co-authored-by: Chen Zhang <zhangch99@outlook.com>	2025-07-04 17:46:53 +00:00
Jee Jee Li	1caca5a589	[Misc] Add SPDX-FileCopyrightText (#20428 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-07-04 07:40:42 +00:00
Aaron Pham	4a98edff1f	[Structured Outputs][V1] Skipping with models doesn't contain tokenizers (#20365 ) Signed-off-by: Aaron Pham <contact@aarnphm.xyz> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-07-04 15:05:49 +08:00
Nick Hill	67d25eca05	[Tests] Update online DP tests to verify that requests are balanced (#20157 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-07-03 14:49:13 +08:00
Nick Hill	657f2f301a	[DP] Support external DP Load Balancer mode (#19790 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-07-02 10:21:52 -07:00
afeldman-nm	48fb076cbc	[V1] LogitsProcessor programming model (#16728 ) Signed-off-by: Nick Hill <nhill@redhat.com> Signed-off-by: Andrew Feldman <afeldman@neuralmagic.com> Signed-off-by: Andrew Feldman <afeldman@redhat.com> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-07-02 09:10:42 -07:00
Chengji Yao	7da296be04	[TPU] kv cache update kernel supports dynamic grid (#20235 ) Signed-off-by: Chengji Yao <chengjiyao@google.com>	2025-07-02 06:33:37 +00:00
Liangliang Ma	a0389e0554	[UT][intel GPU] use current_platform instead of device hardcode in v1 tests (#20169 ) Signed-off-by: Ma, Liangliang <liangliang.ma@intel.com>	2025-07-02 09:06:04 +08:00
Woosuk Kwon	7f280d69c9	[Optimization] Cache sampled token ids in model runner (#20291 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-07-01 11:01:31 -07:00
Woosuk Kwon	2863befce3	[Optimization] Use Shared `CachedRequestData` Instance Across All Requests (#20232 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-06-30 09:07:50 -07:00
Chengji Yao	04e1642e32	[TPU] add kv cache update kernel (#19928 ) Signed-off-by: Chengji Yao <chengjiyao@google.com>	2025-06-26 10:01:37 -07:00
Seiji Eicher	65397e40f5	[Bugfix] Allow `CUDA_VISIBLE_DEVICES=''` in `Platform.device_id_to_physical_device_id` (#18979 ) Signed-off-by: Seiji Eicher <seiji@anyscale.com>	2025-06-26 00:01:57 -07:00
Nicolò Lucchesi	2582683566	[PD] Skip `tp_size` exchange with rank0 (#19413 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-06-25 20:04:39 -07:00
Chenyaaang	2d7620c3eb	[TPU] Add TPU specific var VLLM_TPU_MOST_MODEL_LEN (#19919 ) Signed-off-by: Chenyaaang <chenyangli@google.com>	2025-06-25 15:51:02 -07:00
lkchen	4734704b30	[PD] let toy proxy handle /chat/completions (#19730 ) Signed-off-by: Linkun <github@lkchen.net>	2025-06-25 15:17:45 -04:00
lkchen	91f7d9d0b6	[P/D] Asynchronously do _nixl_handshake (#19836 ) Signed-off-by: Linkun Chen <github@lkchen.net> Signed-off-by: Nick Hill <nhill@redhat.com> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-06-24 12:46:10 -07:00
amit	981eeca41a	[Fix][V1] Remove --scheduling-policy oracle (#20010 ) Signed-off-by: amit <amit.man@gmail.com>	2025-06-24 09:52:15 -07:00
Chenyaaang	33d5e29be9	[TPU] Fix tpu model runner test (#19995 ) Signed-off-by: Chenyaaang <chenyangli@google.com>	2025-06-23 16:04:28 -07:00
lkchen	1bcd15edc7	[BugFix][P/D] Fix for cases where _recving_transfers can be cleaned up when all transfer done (#19874 ) Signed-off-by: Linkun Chen <github@lkchen.net>	2025-06-22 22:41:53 -07:00
amit	4a0f7888a3	[Core] feat: Implement Priority Scheduling in V1 Engine (#19057 ) Signed-off-by: amit <amit.man@gmail.com> Co-authored-by: Roger Wang <Rogerw0108@gmail.com>	2025-06-22 20:18:08 -07:00
Vlad Tiberiu Mihailescu	2e3e3c86dc	Export NaNs in logits to scheduler_stats if output is corrupted (#18777 ) Signed-off-by: Vlad Mihailescu <vtmihailescu@gmail.com>	2025-06-20 22:47:16 +08:00
Isotr0py	ee9a1531aa	[CI/Build][Bugfix] Fix deadlock on v1 engine test CI (#19872 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-06-20 09:51:07 +08:00
kourosh hakhamaneshi	e2148dc5ea	[Bugfix] Add check_health to v1 async client. (#19821 ) Signed-off-by: Kourosh Hakhamaneshi <kourosh@anyscale.com>	2025-06-18 21:47:01 -07:00
Maximilien de Bayser	799397ee4f	Support embedding models in V1 (#16188 ) Signed-off-by: Max de Bayser <mbayser@br.ibm.com> Signed-off-by: Max de Bayser <maxdebayser@gmail.com> Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com> Co-authored-by: 22quinn <33176974+22quinn@users.noreply.github.com>	2025-06-18 21:36:33 -07:00
Chen Zhang	a89209b78d	[v1] Support mamba2 (#19327 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-06-18 20:34:15 +00:00
lkchen	d4629dc43f	[Misc] Add __str__ for RequestStatus (#19780 ) Signed-off-by: Linkun Chen <github@lkchen.net>	2025-06-18 03:03:01 +00:00
Isotr0py	1173804dca	[Bugfix] Fix TP inference for Flex attention backend (#19657 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-06-16 11:21:37 +00:00
Chengji Yao	a77aea59fd	[TPU] support attention head dim smaller than 128 (#19620 ) Signed-off-by: Chengji Yao <chengjiyao@google.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2025-06-16 06:40:53 +00:00

1 2 3 4 5 ...

329 Commits