xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-07-01 05:47:11 +08:00

Author	SHA1	Message	Date
Gabriel Marinho	0f465ab533	[FEATURE] Enables offline /score for embedding models (#12021 ) Signed-off-by: Gabriel Marinho <gmarinho@ibm.com>	2025-01-28 11:30:13 +08:00
Liangfu Chen	ddee88d0ff	[Neuron][Kernel] NKI-based flash-attention kernel with paged KV cache (#11277 ) Signed-off-by: Liangfu Chen <liangfc@amazon.com> Co-authored-by: Jiangfei Duan <jfduan@outlook.com>	2025-01-27 17:31:16 -08:00
Harry Mellor	823ab79633	Update `pre-commit` hooks (#12475 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-01-27 17:23:08 -07:00
Nicolò Lucchesi	6116ca8cd7	[Feature] [Spec decode]: Enable MLPSpeculator/Medusa and `prompt_logprobs` with ChunkedPrefill (#10132 ) Signed-off-by: NickLucche <nlucches@redhat.com> Signed-off-by: wallashss <wallashss@ibm.com> Co-authored-by: wallashss <wallashss@ibm.com>	2025-01-27 13:38:35 -08:00
Bowen Wang	2bc3fbba0c	[FlashInfer] Upgrade to 0.2.0 (#11194 ) Signed-off-by: Bowen Wang <abmfy@icloud.com> Signed-off-by: youkaichao <youkaichao@gmail.com> Co-authored-by: youkaichao <youkaichao@gmail.com>	2025-01-27 18:19:24 +00:00
Woosuk Kwon	3f1fc7425a	[V1][CI/Test] Do basic test for top-p & top-k sampling (#12469 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-01-27 09:40:04 -08:00
Mark McLoughlin	01ba927040	[V1][Metrics] Add initial Prometheus logger (#12416 ) Signed-off-by: Mark McLoughlin <markmc@redhat.com>	2025-01-27 12:26:28 -05:00
Pooya Davoodi	0cc6b383d7	[Frontend] Support scores endpoint in run_batch (#12430 ) Signed-off-by: Pooya Davoodi <pooya.davoodi@parasail.io>	2025-01-27 04:30:17 +00:00
Kyle Mistele	0034b09ceb	[Frontend] Rerank API (Jina- and Cohere-compatible API) (#12376 ) Signed-off-by: Kyle Mistele <kyle@mistele.com>	2025-01-26 19:58:45 -07:00
Tyler Michael Smith	72f4880425	[Bugfix/CI] Fix broken kernels/test_mha.py (#12450 )	2025-01-26 10:39:03 -08:00
Tyler Michael Smith	aa2cd2c43d	[Bugfix] Disable w16a16 2of4 sparse CompressedTensors24 (#12417 ) Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: mgoin <michael@neuralmagic.com>	2025-01-26 19:59:58 +08:00
Matthew Hendrey	9ddc35220b	[Frontend] generation_config.json for maximum tokens(#12242 ) Signed-off-by: Matthew Hendrey <matthew.hendrey@gmail.com> Signed-off-by: Shangming Cai <caishangming@linux.alibaba.com> Signed-off-by: youkaichao <youkaichao@gmail.com> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Signed-off-by: Yuan Tang <terrytangyuan@gmail.com> Signed-off-by: Isotr0py <2037008807@qq.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: Chen Zhang <zhangch99@outlook.com> Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com> Co-authored-by: shangmingc <caishangming@linux.alibaba.com> Co-authored-by: youkaichao <youkaichao@gmail.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Yuan Tang <terrytangyuan@gmail.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk> Co-authored-by: Chen Zhang <zhangch99@outlook.com> Co-authored-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-01-26 19:59:25 +08:00
Isotr0py	f1fc0510df	[Misc] Add FA2 support to ViT MHA layer (#12355 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-01-25 15:07:35 +08:00
Cyrus Leung	df5dafaa5b	[Misc] Remove deprecated code (#12383 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-01-24 14:45:20 -05:00
Lucas Wilkinson	ab5bbf5ae3	[Bugfix][Kernel] Fix CUDA 11.8 being broken by FA3 build (#12375 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-01-24 15:27:59 +00:00
Nick Hill	24b0205f58	[V1][Frontend] Coalesce bunched `RequestOutput`s (#12298 ) Signed-off-by: Nick Hill <nhill@redhat.com> Co-authored-by: Robert Shaw <rshaw@neuralmagic.com>	2025-01-23 17:17:41 -08:00
Gregory Shtrasberg	e97f802b2d	[FP8][Kernel] Dynamic kv cache scaling factors computation (#11906 ) Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com> Co-authored-by: Micah Williamson <micah.williamson@amd.com>	2025-01-23 18:04:03 +00:00
Lucas Wilkinson	978b45f399	[Kernel] Flash Attention 3 Support (#12093 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-01-23 06:45:48 -08:00
Cody Yu	f0ef37233e	[V1] Add `uncache_blocks` (#12333 )	2025-01-23 04:19:21 +00:00
rasmith	68c4421b6d	[AMD][Quantization] Add TritonScaledMMLinearKernel since int8 is broken for AMD (#12282 ) Signed-off-by: Randall Smith <Randall.Smith@amd.com>	2025-01-23 00:10:37 +00:00
Cody Yu	7206ce4ce1	[Core] Support `reset_prefix_cache` (#12284 )	2025-01-22 18:52:27 +00:00
youkaichao	68ad4e3a8d	[Core] Support fully transparent sleep mode (#11743 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-01-22 14:39:32 +08:00
Kevin H. Luu	64ea24d0b3	[ci/lint] Add back default arg for pre-commit (#12279 ) Signed-off-by: kevin <kevin@anyscale.com>	2025-01-22 01:15:27 +00:00
Cyrus Leung	df76e5af26	[VLM] Simplify post-processing of replacement info (#12269 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-01-21 16:48:13 -08:00
Adrian Cole	347eeebe3b	[Misc] Remove experimental dep from tracing.py (#12007 ) Signed-off-by: Adrian Cole <adrian.cole@elastic.co>	2025-01-21 11:51:55 -08:00
Andy Lo	18fd4a8331	[Bugfix] Multi-sequence broken (#11898 ) Signed-off-by: Andy Lo <andy@mistral.ai>	2025-01-21 11:51:35 -08:00
Ricky Xu	132a132100	[v1][stats][1/n] Add RequestStatsUpdate and RequestStats types (#10907 ) Signed-off-by: rickyx <rickyx@anyscale.com>	2025-01-21 11:51:13 -08:00
Nicolò Lucchesi	5fe6bf29d6	[BugFix] Fix GGUF tp>1 when vocab_size is not divisible by 64 (#12230 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-01-21 12:23:14 +08:00
Cyrus Leung	18572e3384	[Bugfix] Fix `HfExampleModels.find_hf_info` (#12223 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-01-20 15:35:36 +00:00
Cyrus Leung	b37d82791e	[Model] Upgrade Aria to transformers 4.48 (#12203 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-01-20 17:58:48 +08:00
Cyrus Leung	59a0192fb9	[Core] Interface for accessing model from `VllmRunner` (#10353 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-01-20 15:00:59 +08:00
Isotr0py	83609791d2	[Model] Add Qwen2 PRM model support (#12202 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-01-20 14:59:46 +08:00
Martin Gleize	bbe5f9de7d	[Model] Support for fairseq2 Llama (#11442 ) Signed-off-by: Martin Gleize <mgleize@meta.com> Co-authored-by: mgleize user <mgleize@a100-st-p4de24xlarge-4.fair-a100.hpcaas>	2025-01-19 10:40:40 -08:00
Roger Wang	81763c58a0	[V1] Add V1 support of Qwen2-VL (#12128 ) Signed-off-by: Roger Wang <ywang@roblox.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: imkero <kerorek@outlook.com> Co-authored-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-01-19 19:52:13 +08:00
yancong	32eb0da808	[Misc] Support register quantization method out-of-tree (#11969 )	2025-01-18 16:13:16 -08:00
Isotr0py	02798ecabe	[Model] Port deepseek-vl2 processor, remove dependency (#12169 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-01-18 13:59:39 +08:00
youkaichao	da02cb4b27	[core] further polish memory profiling (#12126 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-01-18 12:25:08 +08:00
Wallas Henrique	58fd57ff1d	[Bugfix] Fix score api for missing max_model_len validation (#12119 ) Signed-off-by: Wallas Santos <wallashss@ibm.com>	2025-01-17 16:24:22 +00:00
youkaichao	87a0c076af	[core] allow callable in collective_rpc (#12151 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-01-17 20:47:01 +08:00
Jee Jee Li	07934cc237	[Misc][LoRA] Improve the readability of LoRA error messages (#12102 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-01-17 19:32:28 +08:00
Chen Zhang	69d765f5a5	[V1] Move more control of kv cache initialization from model_executor to EngineCore (#11960 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com> Co-authored-by: Cody Yu <hao.yu.cody@gmail.com>	2025-01-17 07:39:35 +00:00
Isotr0py	d75ab55f10	[Misc] Add deepseek_vl2 chat template (#12143 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-01-17 06:34:48 +00:00
Isotr0py	62b06ba23d	[Model] Add support for deepseek-vl2-tiny model (#12068 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-01-16 17:14:48 +00:00
Roger Wang	874f7c292a	[Bugfix] Fix max image feature size for Llava-one-vision (#12104 ) Signed-off-by: Roger Wang <ywang@roblox.com>	2025-01-16 14:54:06 +00:00
youkaichao	bf53e0c70b	Support torchrun and SPMD-style offline inference (#12071 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-01-16 19:58:53 +08:00
Isotr0py	dd7c9ad870	[Bugfix] Remove hardcoded `head_size=256` for Deepseek v2 and v3 (#12067 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-01-16 10:11:54 +00:00
Joe Runde	edce722eaa	[Bugfix] use right truncation for non-generative tasks (#12050 ) Signed-off-by: Joe Runde <Joseph.Runde@ibm.com>	2025-01-16 00:31:01 +08:00
kewang-xlnx	de0526f668	[Misc][Quark] Upstream Quark format to VLLM (#10765 ) Signed-off-by: kewang-xlnx <kewang@xilinx.com> Signed-off-by: kewang2 <kewang2@amd.com> Co-authored-by: kewang2 <kewang2@amd.com> Co-authored-by: Michael Goin <michael@neuralmagic.com>	2025-01-15 11:05:15 -05:00
RunningLeon	97eb97b5a4	[Model]: Support internlm3 (#12037 )	2025-01-15 11:35:17 +00:00
wangxiyuan	3adf0ffda8	[Platform] Do not raise error if _Backend is not found (#12023 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com> Signed-off-by: Mengqing Cao <cmq0113@163.com> Co-authored-by: Mengqing Cao <cmq0113@163.com>	2025-01-15 10:14:15 +00:00

... 9 10 11 12 13 ...

1788 Commits