xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-04-29 15:37:26 +08:00

Author	SHA1	Message	Date
Li, Jiang	e2f56c309d	[CPU] Update torch 2.9.1 for CPU backend (#29664 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-11-28 13:37:54 +00:00
Isotr0py	38658ec6f3	[Bugfix][MM encoder] Fix ViT attention backend resolving for Turing GPU (#29614 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-11-27 19:17:37 +00:00
Matthew Bonanni	fc1d8be3dc	[Attention] Update attention imports (#29540 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-27 11:19:09 -05:00
Johnny Yang	3ecabd06ee	Fix tpu-inference platform path (#29554 ) Signed-off-by: Johnny Yang <johnnyyang@google.com>	2025-11-26 23:25:21 -08:00
Johnny Yang	ba1fcd84a7	[TPU] add tpu_inference (#27277 ) Signed-off-by: Johnny Yang <johnnyyang@google.com>	2025-11-26 14:46:36 -08:00
Matthew Bonanni	430dd4d9eb	[Attention] Remove imports from `vllm/attention/__init__.py` (#29342 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-26 10:53:15 -07:00
Michael Goin	dbc3d9991a	[UX] Put CUDA attention backend selection log into one line (#29337 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-11-25 06:46:18 -08:00
Micah Williamson	ef1f7030f0	[ROCm][CI] Fix test_cudagraph_mode failure in AMD CI (#29367 ) Signed-off-by: Micah Williamson <micah.williamson@amd.com>	2025-11-25 07:55:09 +00:00
Icey	888152bf87	Allow oot custom compiler extension via CompilerInterface (#28623 ) Signed-off-by: wxsIcey <1790571317@qq.com> Signed-off-by: Mengqing Cao <cmq0113@163.com> Signed-off-by: Icey <1790571317@qq.com> Co-authored-by: Mengqing Cao <cmq0113@163.com>	2025-11-25 15:25:15 +08:00
vllmellm	64deead719	[Bugfix] [ROCm] [UX]: revert Flex attention backend (#29371 ) Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>	2025-11-25 06:56:06 +00:00
vllmellm	e48b2e6848	[Bugfix] [ROCm] [UX] Reorganize ROCm Backend Selection Logic (#26980 ) Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>	2025-11-24 15:24:49 +00:00
Roger Wang	0ff70821c9	[Core] Deprecate `xformers` (#29262 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2025-11-24 04:18:55 +00:00
Chendi.Xue	460d02a417	[NIXL] Fix after virtual block_size for host_buffer with heter kv_layout (#29122 ) Signed-off-by: Chendi Xue <chendi.xue@intel.com>	2025-11-21 08:55:27 -08:00
Matthew Bonanni	11857a00b0	[Attention] Add ROCM_AITER_MLA_SPARSE to attention backend registry (#29103 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-20 20:24:43 -08:00
Pleaplusone	06c20c9904	[ROCm] Add AMD GPU support on Deepseek v3.2 and SparseMLA (#26670 ) Signed-off-by: ganyi <ygan@amd.com>	2025-11-20 02:54:01 -08:00
Aleksandr Malyshev	ac10fd3c69	Upstreaming aiter triton attention backend as a new backend (#28701 ) Signed-off-by: Aleksandr Malyshev <maleksan@amd.com> Co-authored-by: Aleksandr Malyshev <maleksan@amd.com>	2025-11-19 19:59:30 +00:00
Matthew Bonanni	4c23690f43	[Attention] FlashAttention ViT support, make default backend (#28763 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-18 20:06:21 -08:00
Strahinja Stamenkovic	814843e021	Enable bitsandbytes quantization on AMD GPUs that use warp size 32 (#27307 ) Signed-off-by: sstamenk <strahinja.stamenkovic@amd.com>	2025-11-19 03:12:31 +00:00
Cyrus Leung	638e4196d1	[Misc] Make `SchedulerConfig.max_model_len` init-only (#28733 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-15 01:59:31 -08:00
QiliangCui	9fc81ec765	[TPU] Fix import error in tpu launch (#28758 ) Signed-off-by: Qiliang Cui <derrhein@gmail.com>	2025-11-15 00:58:32 +00:00
Cyrus Leung	e2741f6cbc	[Chore] Rename `SchedulerConfig.chunked_prefill_enabled` (#28735 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-14 18:39:57 +00:00
Cyrus Leung	511a6b611d	[Config] Clean up SchedulerConfig initialization (#28665 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-14 22:41:02 +08:00
Huamin Li	07a606aa7e	[CI Failure] Fix backend selection for encoder-only models (#28534 ) Signed-off-by: Huamin Li <3ericli@gmail.com>	2025-11-13 10:11:27 -05:00
Fanli Lin	dbbe0c756a	[XPU] Support Triton path for LoRA operations on XPU (#28511 ) Signed-off-by: Fanli Lin <fanli.lin@intel.com>	2025-11-13 05:31:42 +00:00
wangxiyuan	2dacd57394	[platform] Move get_cu_count to utils (#27005 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-11-13 08:48:47 +08:00
ℍ𝕠𝕝𝕝𝕠𝕨 𝕄𝕒𝕟	4ca5cd5740	[Core][AMD] Migrate fully transparent sleep mode to ROCm platform (#12695 ) Signed-off-by: Hollow Man <hollowman@opensuse.org> Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com> Co-authored-by: tjtanaa <tunjian.tan@embeddedllm.com> Co-authored-by: kliuae <kuanfu.liu@embeddedllm.com>	2025-11-12 15:24:12 -08:00
vllmellm	d8140b9833	[ROCM] Fix ROCm warnings, environment flag access, and GEMM kernel naming for consistency in `_aiter_ops.py` (#28464 ) Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>	2025-11-12 21:46:57 +00:00
Harry Mellor	54aecd9ed5	Fix pre-commit (and XPU) on `main` (#28556 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-12 06:13:41 -08:00
wangxiyuan	10138c92a5	[V0 deprecation] Deprecate use_v1 parameter (#28112 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-11-12 14:03:52 +00:00
Chaojun Zhang	a4730c1b4f	[XPU]Fix crash due to removed VLLM_USE_V1 attribute (#28520 ) Signed-off-by: chaojun-zhang <chaojun.zhang@intel.com>	2025-11-12 10:20:55 +00:00
Andreas Karatzas	9f0247cfa4	`VLLM_USE_TRITON_FLASH_ATTN` V0 variable deprecation (#27611 ) Signed-off-by: Andreas Karatzas <akaratza@amd.com> Signed-off-by: Andreas Karatzas <Andreas.Karatzas@amd.com>	2025-11-11 18:34:36 -08:00
Li, Jiang	7f829be7d3	[CPU] Refactor CPU attention backend (#27954 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-11-12 09:43:06 +08:00
Kyuyeun Kim	df4d3a44a8	[TPU] Rename path to tpu platform (#28452 ) Signed-off-by: Kyuyeun Kim <kyuyeunk@google.com>	2025-11-11 19:16:47 +00:00
Matthew Bonanni	684f254585	Prefer FlashAttention MLA as default over FlashMLA (#27363 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-11 17:13:51 +00:00
Matthew Bonanni	b30dfa03c5	[Attention] Refactor CUDA attention backend selection logic (#24794 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com> Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2025-11-11 07:40:44 -05:00
vllmellm	f080a83511	[RFC][ROCm][AITER] Keep all AITER kernels in `_aiter_ops` class like `_custom_ops` and `_ipex_ops` (#24490 ) Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2025-11-10 08:20:53 -08:00
JartX	c5f685b3ae	[ROCm][Platform] Add RX7900XTX device id in _ROCM_DEVICE_ID_NAME_MAP (#28279 ) Signed-off-by: JartX <sagformas@epdcenter.es>	2025-11-09 23:09:36 +00:00
StanHatko	e52e4da971	[HARDWARE][CPU] Add Option for Disabling Binding to Specific CPU Cores (#27953 ) Signed-off-by: Stan Hatko <stan_hatko@live.com> Co-authored-by: Li, Jiang <jiang1.li@intel.com>	2025-11-06 23:47:11 +08:00
Wentao Ye	d79d9f0780	[Bug] Fix cpu disable shared_experts `VLLM_DISABLE_SHARED_EXPERTS_STREAM` (#28157 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-11-05 17:03:09 -08:00
Pleaplusone	6cae1e5332	[ROCm][MLA] Support block-size > 1 for AITER MLA backend (#27224 ) Signed-off-by: ganyi <ygan@amd.com> Co-authored-by: wuhuikx <hattie.wu@amd.com>	2025-11-05 10:43:02 -05:00
wangxiyuan	30a14b034f	[V0 deprecation] Remove VLLM_USE_V1 usage in platform and v1 module (#27798 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-01 10:17:45 +00:00
Yan Ma	7e2729b57e	[Multimodal][XPU]Enable vision attn backend for xpu platform (#27525 ) Signed-off-by: Yan Ma <yan.ma@intel.com> Signed-off-by: Kunshang Ji <kunshang.ji@intel.com> Co-authored-by: Yejing Lai <yejing.lai@intel.com> Co-authored-by: Guancheng Fu <110874468+gc-fu@users.noreply.github.com> Co-authored-by: Kunshang Ji <kunshang.ji@intel.com>	2025-11-01 04:45:02 +00:00
Akash kaothalkar	36960501d3	[Hardware][Powerpc] Fix VLLM_CPU_OMP_THREADS_BIND="auto" low CPU utilization for Power (#27734 ) Signed-off-by: Akash Kaothalkar <akash.kaothalkar@ibm.com> Co-authored-by: Akash Kaothalkar <akash.kaothalkar@ibm.com>	2025-10-31 07:45:26 +00:00
Wentao Ye	5b0448104f	[Bug] Raise error explicitly if using incompatible backend (#27424 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-29 13:29:20 -04:00
Xiake Sun	ded24e3e54	[ROCm][Platform] Add MI308X device id in _ROCM_DEVICE_ID_NAME_MAP (#27623 ) Signed-off-by: Xiake Sun <xiake.sun@amd.com>	2025-10-29 14:44:03 +00:00
Zhewen Li	83fd49b1fc	[CI/Build][Bugfix]Fix Quantized Models Test on AMD (#27712 ) Signed-off-by: zhewenli <zhewenli@meta.com>	2025-10-29 06:27:30 +00:00
Cyrus Leung	6ebffafbb6	[Misc] Clean up more utils (#27567 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-27 15:30:38 +00:00
Fadi Arafeh	a663f6ae64	[cpu][perf] Fix low CPU utilization with VLLM_CPU_OMP_THREADS_BIND on AArch64 (#27415 ) Signed-off-by: Fadi Arafeh <fadi.arafeh@arm.com>	2025-10-27 11:14:55 +00:00
Shanshan Shen	a3e8611da5	[Bugfix] Limit the default value of `max_model_len` when it is not specified by users (#27556 ) Signed-off-by: shen-shanshan <467638484@qq.com>	2025-10-27 10:16:20 +00:00
Yeshwanth N	71b1c8b667	[Chore]:Extract math and argparse utilities to separate modules (#27188 ) Signed-off-by: Yeshwanth Surya <yeshsurya@gmail.com> Signed-off-by: Yeshwanth N <yeshsurya@gmail.com> Signed-off-by: yeshsurya <yeshsurya@gmail.com>	2025-10-26 04:03:32 -07:00

1 2 3 4 5 ...

406 Commits