xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-05-25 10:44:27 +08:00

Author	SHA1	Message	Date
wang.yuqi	f4b76056ee	Improve enable chunked_prefill & prefix_caching logic. (#26623 ) Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io> Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-11-27 22:05:48 -08:00
Cyrus Leung	389aa1b2eb	[Doc] Update more docs with respect to V1 (#29188 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-23 10:58:48 +08:00
Julien Denize	57430fc95c	Default model load/config/tokenizer to `mistral` format if relevant files exist (#28659 ) Signed-off-by: Julien Denize <julien.denize@mistral.ai> Signed-off-by: Julien Denize <40604584+juliendenize@users.noreply.github.com> Signed-off-by: mgoin <mgoin64@gmail.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2025-11-21 13:58:59 -08:00
Harry Mellor	a8b70304d6	Update `rope_scaling` to `rope_parameters` in preparation for Transformers v5 (#28542 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-19 09:06:36 -08:00
Roman Solomatin	71d0ae1c54	[Misc] Update embedding/cross encoder tests to use `mteb` v2 (#27329 ) Signed-off-by: Roman Solomatin <36135455+Samoed@users.noreply.github.com> Signed-off-by: wang.yuqi <noooop@126.com> Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: wang.yuqi <noooop@126.com> Co-authored-by: wang.yuqi <yuqi.wang@daocloud.io>	2025-11-18 22:28:40 -08:00
Kevin H. Luu	c64c0b78de	[chore] Move the rest of wikimedia url to S3 (#28921 ) Signed-off-by: Kevin H. Luu <khluu000@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-11-18 09:44:18 -08:00
wang.yuqi	a55b64635c	[Model] Allow users to control skip reading cache per request. (#28194 ) Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io> Signed-off-by: wang.yuqi <noooop@126.com>	2025-11-16 00:04:50 -08:00
Cyrus Leung	511a6b611d	[Config] Clean up SchedulerConfig initialization (#28665 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-14 22:41:02 +08:00
Andreas Karatzas	9f0247cfa4	`VLLM_USE_TRITON_FLASH_ATTN` V0 variable deprecation (#27611 ) Signed-off-by: Andreas Karatzas <akaratza@amd.com> Signed-off-by: Andreas Karatzas <Andreas.Karatzas@amd.com>	2025-11-11 18:34:36 -08:00
Li, Jiang	7f829be7d3	[CPU] Refactor CPU attention backend (#27954 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-11-12 09:43:06 +08:00
Asaf Joseph Gardin	00b31a36a2	[V1] [Hybrid] Mamba1 Automatic Prefix Caching (#26377 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-11-02 04:16:23 -08:00
wang.yuqi	4464723f22	[Frontend][Doc][5/N] Improve all pooling task \| Polish encode (pooling) api & Document. (#25524 ) Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-10-30 12:13:05 +00:00
wang.yuqi	3729ed00ba	[Model] Add num_cached_tokens for PoolingRequestOutput (#27378 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-10-23 14:03:42 +08:00
Luciano Martins	e05a6754a8	[Model] Revert PR #26715 : Restore custom PaliGemma and Gemma3-MM impl… (#27309 ) Signed-off-by: Luciano Martins <lucianommartins@users.noreply.github.com> Co-authored-by: Luciano Martins <lucianommartins@users.noreply.github.com>	2025-10-22 10:05:34 -07:00
Cyrus Leung	8c017b3490	[Model] Always use Transformers backend for PaliGemma and Gemma3-MM (#26715 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-17 05:03:35 +00:00
wang.yuqi	f54f85129e	[Model][2/N] Improve all pooling task \| Support multi-vector retrieval (#25370 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-10-15 11:14:41 +00:00
Isotr0py	8e67b2557a	[Bugfix] Fix out of bound index issue for Jina-embedding-v3 RoPE with cuda graph (#26687 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-13 03:21:48 -07:00
wang.yuqi	767c3ab869	[Model][0/N] Improve all pooling task \| clean up (#25817 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-10-13 16:44:50 +08:00
gjgjos	18ed7746ea	[Feature] Add support for naver/splade-v3 (BERT-based sparse embedding model) (#26339 ) Signed-off-by: gjgjos <gjgjos@naver.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-10-12 17:00:52 +00:00
Harry Mellor	8fcaaf6a16	Update `Optional[x]` -> `x \| None` and `Union[x, y]` to `x \| y` (#26633 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-12 09:51:31 -07:00
Isotr0py	045b396d09	[Bugfix][CI/Build] Fix failing Mteb CI (#26638 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-12 02:42:42 -07:00
Cyrus Leung	0f29dca988	[CI/Build] Fix model nightly tests (#26466 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-08 23:44:16 -07:00
wang.yuqi	e39dc46f8f	[CI] Pooling models mteb test disable enforce_eager (#26408 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-10-08 12:15:36 +00:00
antrec	6f59beaf0b	[Model] Add support for ModernBertForTokenClassification (#26340 ) Signed-off-by: Antoine Recanati Le Goat <antoine.recanati@sancare.fr> Signed-off-by: antrec <antoine.recanati@gmail.com> Co-authored-by: Antoine Recanati Le Goat <antoine.recanati@sancare.fr> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-10-07 14:29:19 +00:00
Harry Mellor	6c04638214	Fix per file ruff ignores related to line length (#26262 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-06 05:12:40 +00:00
Harry Mellor	d6953beb91	Convert formatting to use `ruff` instead of `yapf` + `isort` (#26247 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-05 07:06:22 -07:00
Stan Wozniak	ea507c3a93	[V1] [Hybrid] Mamba2 Automatic Prefix Caching (#25752 ) Signed-off-by: Stanislaw Wozniak <stw@zurich.ibm.com> Signed-off-by: Thomas Ortner <boh@zurich.ibm.com> Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Co-authored-by: Thomas Ortner <boh@zurich.ibm.com> Co-authored-by: Thomas Parnell <tpa@zurich.ibm.com>	2025-10-04 06:34:22 +02:00
Thomas Parnell	0e93ac0b3a	[CI] Fix distributed hybrid tests in CI (#26155 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>	2025-10-03 09:14:18 +00:00
Thomas Parnell	a903669e10	[V1] Remove V0 code paths for Hybrid models (#25400 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>	2025-09-23 08:26:13 -07:00
Woosuk Kwon	52c2a8d4ad	[V0 Deprecation] Remove LLMEngine (#25033 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai> Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-09-20 17:56:30 -07:00
Harry Mellor	058525b997	Move `PoolerConfig` from `config/__init__.py` to `config/pooler.py` (#25181 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-09-19 11:02:55 +00:00
Andrew Sansom	9a4600e4dc	[CORE] Prompt Embeddings Support for v1 Engine (#24278 ) Signed-off-by: Andrew Sansom <andrew@protopia.ai> Signed-off-by: Andrew Sansom <qthequartermasterman@gmail.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-09-19 08:03:09 +08:00
wang.yuqi	5f696c33b1	[New Model] Support BertForTokenClassification / Named Entity Recognition (NER) task (#24872 ) Signed-off-by: wang.yuqi <noooop@126.com> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-18 23:22:01 +08:00
Asaf Joseph Gardin	66072b36db	[Bugfix][Mamba] - Fix Conv State Kernel FP32 Support (#24883 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-09-18 12:21:17 +00:00
Woosuk Kwon	759ef49b15	Remove V0 Encoder-Decoder Support (#24907 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai>	2025-09-15 21:17:14 -07:00
afeldman-nm	c8c42597ab	[CI] Speed up model unit tests in CI (#24253 ) Signed-off-by: Andrew Feldman <afeldman@redhat.com>	2025-09-12 10:36:50 -07:00
Li, Jiang	59d5d2c736	[CI/Build] Skip prompt embeddings tests on V1-only CPU backend (#24721 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-09-12 18:51:01 +08:00
wang.yuqi	d21a36f5f9	[CI] Add ci_envs for convenient local testing (#24630 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-12 08:52:25 +00:00
Andrew Sansom	ddcec289c7	Fix implementation divergence for BLOOM models between vLLM and HuggingFace when using prompt embeds (#24686 ) Signed-off-by: Andrew Sansom <andrew@protopia.ai>	2025-09-12 04:35:48 +00:00
Maximilien de Bayser	e090b7b45b	Enable conversion of multimodal models to pooling tasks (#24451 ) Signed-off-by: Max de Bayser <mbayser@br.ibm.com>	2025-09-12 03:30:41 +00:00
wang.yuqi	fd1ce98cdd	[CI] Split mteb test from Language Models Test (#24634 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-11 06:37:51 -07:00
Russell Bryant	37e8182bfe	[v1] Add Whisper model support (encoder-decoder) (#21088 ) Signed-off-by: Russell Bryant <rbryant@redhat.com> Co-authored-by: NickLucche <nlucches@redhat.com>	2025-09-10 13:53:35 -07:00
wang.yuqi	bd98842c8a	[CI] Add PPL test for generation models (#24485 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-10 06:16:39 -07:00
Remy	feaf202e93	[Bugfix] Guard `_may_reorder_batch` for encoder-only models on CPU (#24319 ) (#24348 ) Signed-off-by: Remy <eunhwan.shin@dtonic.io> Co-authored-by: Li, Jiang <jiang1.li@intel.com>	2025-09-10 14:24:42 +08:00
wang.yuqi	19332c0479	[Model] Systematic support for fp32 head, pooling models part (#23810 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-09 07:29:50 -07:00
Didier Durand	46876dff32	[Doc]: fixing typos to improve docs (#24480 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-09-08 23:06:04 -07:00
Cyrus Leung	948dd3443b	[Bugfix] Fix Apertus HF repo name (#24447 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-09-08 21:40:29 -07:00
wang.yuqi	6d6c6b05d3	[New Model]: google/embeddinggemma-300m (#24318 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-05 22:58:36 -07:00
nopperl	fa4311d85f	[V1] v1 engine + full CUDA graph support for PLaMo2 (#23998 ) Signed-off-by: Hemmi Shinichi <shemmi@preferred.jp> Signed-off-by: nopperl <54780682+nopperl@users.noreply.github.com> Co-authored-by: Hemmi Shinichi <shemmi@preferred.jp> Co-authored-by: Thomas Parnell <tom.parnell@gmail.com>	2025-09-03 08:24:02 -07:00
wang.yuqi	51383bd472	[CI] Accelerate mteb test by setting SentenceTransformers mteb score to a constant (#24088 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-03 17:23:56 +08:00

1 2 3

135 Commits