xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2025-12-24 16:35:55 +08:00

Author	SHA1	Message	Date
bnellnm	f9c069c85e	Modularize fused experts and integrate PPLX kernels (#15956 )	2025-05-14 13:11:54 -07:00
Ekagra Ranjan	418d2f8bfb	[V1][Spec Decode] Share input embedding of target model with EAGLE draft model to free ~1GB for llama 3 model (#17326 ) Co-authored-by: root <root@ekagra-8xh100.us-east5-a.c.serving-efficiency-poc.internal> Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-05-14 12:31:46 -07:00
Cyrus Leung	d62a076e84	[Model] GritLM supports other attention backends (#18109 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-05-14 03:33:19 -07:00
Jee Jee Li	63dc3426e0	[Model] Add packed_modules_mapping for Qwen3-MOE (#18118 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-05-14 02:13:19 -07:00
wang.yuqi	63ad622233	[New Model]: support GTE NewModel (#17986 )	2025-05-14 01:31:31 -07:00
Tao He	60f7624334	Implements dual-chunk-flash-attn backend for dual chunk attention with sparse attention support (#11844 )	2025-05-12 19:52:47 -07:00
bwshen-mi	acee8f48aa	[Model] Support MiMo-7B inference with MTP (#17433 ) Signed-off-by: wp-alpha <wangpeng66@xiaomi.com> Co-authored-by: wangpeng66 <wangpeng66@xiaomi.com>	2025-05-12 23:25:33 +00:00
Isotr0py	021c16c7ca	[Model] Broadcast Ovis2 implementation to fit Ovis1.6 (#17861 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-05-11 17:56:30 -07:00
wang.yuqi	e4b8713380	[New Model]: nomic-embed-text-v2-moe (#17785 )	2025-05-11 00:59:43 -07:00
Lucas Wilkinson	5e6f939484	[Attention] MLA move rotary embedding to cuda-graph region (#17668 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-05-09 11:14:42 +08:00
Jee Jee Li	a944f8ede7	[Misc] Delete LoRA-related redundancy code (#17841 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-05-08 06:02:21 -07:00
Cyrus Leung	015815fe01	[Bugfix] `use_fast` failing to be propagated to Qwen2-VL image processor (#17838 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-05-08 05:39:21 -07:00
Wanrui Dai	f80ae5bdcf	[Kernel] Use fused rmsnorm for some models like qwen3 series (#17735 ) Signed-off-by: evian <eviantai@u.nus.edu> Co-authored-by: evian <eviantai@u.nus.edu>	2025-05-06 23:10:02 -07:00
Isotr0py	c3e9d5060e	[Misc] Use `apply_rotary_emb` from vllm_flash_attn for Qwen2-VL vision RoPE (#17726 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-05-07 04:51:33 +00:00
Jee Jee Li	822de7fb94	[Misc] Split model loader (#17712 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-05-07 12:42:26 +08:00
Chih-Chieh Yang	18dd5e01f2	[Model] Mamba2 causal conv1d Refactor to Split Prefill and Decode Requests for Corresponding Kernels (#17146 ) Signed-off-by: Chih-Chieh-Yang <7364402+cyang49@users.noreply.github.com>	2025-05-06 17:59:30 -07:00
Stan Wozniak	999328be0d	[Model] Add GraniteMoeHybrid 4.0 model (#17497 ) Signed-off-by: Thomas Ortner <boh@zurich.ibm.com> Signed-off-by: Stanislaw Wozniak <stw@zurich.ibm.com> Co-authored-by: Thomas Ortner <boh@zurich.ibm.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Tyler Michael Smith <tysmith@redhat.com>	2025-05-06 12:00:31 +08:00
Harry Mellor	d6484ef3c3	Add full API docs and improve the UX of navigating them (#17485 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-05-03 19:42:43 -07:00
Caleb_Du	3e887d2e0c	permute/unpermute kernel for moe optimization (#14568 ) Signed-off-by: Caleb_Du <Caleb_Du@zju.edu.cn>	2025-05-02 11:31:55 -07:00
Michael Goin	f192ca90e6	Fix PixtralHF missing spatial_merge_size (#17571 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-05-01 22:14:09 -07:00
Lucas Wilkinson	afcb3f8863	[Attention] MLA move o_proj q_proj into cuda-graph region (#17484 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-05-02 03:16:26 +00:00
qizixi	39c0813a7f	[V1][Spec Decode] Apply torch.compile & cudagraph to EAGLE3 (#17504 ) Signed-off-by: qizixi <qizixi@meta.com>	2025-05-01 16:19:30 -07:00
sstamenk	04f2cfc894	Remove duplicate code from dbrx.py (#17550 )	2025-05-01 11:51:58 -07:00
Isotr0py	88c8304104	[Model] Refactor Ovis2 to support original tokenizer (#17537 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-05-01 11:00:53 -07:00
Cyrus Leung	afb4429b4f	[CI/Build] Reorganize models tests (#17459 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-04-30 23:03:08 -07:00
Alex Brooks	02bd654846	[Misc] Rename Audios -> Audio in Qwen2audio Processing (#17507 ) Signed-off-by: Alex-Brooks <Alex.Brooks@ibm.com>	2025-04-30 19:51:36 -07:00
Aaron Pham	da4e7687b5	[Fix] Support passing args to logger (#17425 ) Signed-off-by: Aaron Pham <contact@aarnphm.xyz>	2025-04-30 08:06:58 -07:00
Marco	54072f315f	[MODEL ADDITION] Ovis2 Model Addition (#15826 ) Signed-off-by: Marco <121761685+mlinmg@users.noreply.github.com> Signed-off-by: Isotr0py <2037008807@qq.com> Signed-off-by: isotr0py <2037008807@qq.com> Co-authored-by: Isotr0py <2037008807@qq.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-04-30 07:33:29 +00:00
Michael Goin	a44c4f1d2f	Support LoRA for Mistral3 (#17428 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-04-29 21:10:30 -07:00
Bryan Lu	70788bdbdc	[V1][Spec Decode] Apply torch.compile & cudagraph to EAGLE (#17211 ) Signed-off-by: Bryan Lu <yuzhelu@amazon.com>	2025-04-29 21:10:00 +00:00
Isotr0py	2fa2a50bf9	[Bugfix] Fix Minicpm-O-int4 GPTQ model inference (#17397 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-04-29 18:21:42 +00:00
Harry Mellor	900edfa8d4	Transformers backend tweaks (#17365 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-04-29 09:08:03 -07:00
Cyrus Leung	00ee37efa2	[Bugfix] Clean up MiniMax-VL and fix processing (#17354 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-04-29 20:42:16 +08:00
Ekagra Ranjan	97cc8729f0	[Model] Ignore rotary embed load for Cohere model (#17319 )	2025-04-29 00:30:40 -07:00
Cyrus Leung	ebb3930d28	[Misc] Move config fields to MultiModalConfig (#17343 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-04-29 06:37:21 +00:00
qscqesze	cde384cd92	[Model] support MiniMax-VL-01 model (#16328 ) Signed-off-by: qingjun <qingjun@minimaxi.com>	2025-04-29 12:05:50 +08:00
Lucia Fang	b4ac4fa04d	[model] make llama4 compatible with pure dense layers (#17315 ) Signed-off-by: Lucia Fang <fanglu@fb.com>	2025-04-29 10:22:22 +08:00
Cyrus Leung	506475de5f	[Optim] Compute multimodal hash only once per item (#17314 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-04-29 09:40:35 +08:00
Alex Wu	6e74fd4945	Support loading transformers models with named parameters (#16868 ) Signed-off-by: Alex <alexwu@character.ai>	2025-04-28 23:15:58 +01:00
Cyrus Leung	8b464d9660	[Misc] Clean up Qwen2.5-Omni code (#17301 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-04-28 06:20:45 -07:00
Cyrus Leung	344e193b7d	[Bugfix] Add missing `get_language_model` to new MLLMs (#17300 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-04-28 04:09:57 -07:00
Alex Brooks	fa93cd9f60	[Model] Add Granite Speech Support (#16246 ) Signed-off-by: Alex-Brooks <Alex.brooks@ibm.com> Signed-off-by: Alex-Brooks <Alex.Brooks@ibm.com>	2025-04-28 10:05:00 +00:00
Wanrui Dai	7fcc4223dc	[Minor][Models] Pass partial_rotary_factor parameter to rope (#17266 ) Signed-off-by: evian <eviantai@u.nus.edu> Co-authored-by: evian <eviantai@u.nus.edu>	2025-04-28 04:28:59 +00:00
Michael Goin	cb3f2d8d10	[Bugfix] Fix Mistral3 spatial merge error (#17270 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-04-27 19:40:05 -07:00
Jee Jee Li	4283a28c2f	[Bugfix] Fix QWen2 VL multimodal mapping (#17240 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-04-27 05:53:23 +00:00
Woosuk Kwon	b278911229	[Minor][Models] Fix Return Types of Llama & Eagle (#17220 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-04-25 21:54:47 -07:00
Chen Zhang	8de2901fea	[Bugfix] gemma[2,3] interleaved attention when sliding window is disabled (#17180 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-04-25 19:53:51 -07:00
Benjamin Chislett	a0e619e62a	[V1][Spec Decode] EAGLE-3 Support (#16937 ) Signed-off-by: Bryan Lu <yuzhelu@amazon.com> Signed-off-by: Benjamin Chislett <benjamin.chislett@centml.ai> Co-authored-by: Bryan Lu <yuzhelu@amazon.com>	2025-04-25 15:43:07 -07:00
Zaida Zhou	69bff9bc89	fix float16 support for kimi-vl (#17156 ) Co-authored-by: zhouzaida <zhouzaida@msh.team>	2025-04-24 20:16:32 -07:00
Isotr0py	b0c1f6202d	[Misc] Remove OLMo2 config copy (#17066 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-04-24 06:14:32 -07:00

1 2 3 4 5 ...

994 Commits