xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-01-23 06:44:27 +08:00

Author	SHA1	Message	Date
Hank_	ccd3e55e51	[Bugfix][plugin] fla crash on plugin (#27322 )	2025-11-04 05:27:03 +08:00
Zhiyuan Li	4e68cc9b6a	[Model] Introduce Kimi Linear to vLLM (#27809 ) Signed-off-by: lizhiyuan <lizhiyuan@moonshot.cn> Signed-off-by: Zhiyuan Li <uniartisan2017@gmail.com>	2025-10-30 21:02:27 +08:00
Zhiyuan Li	e88bdd60d9	[FLA] Introduce Kimi Delta Attention(KDA) to VLLM (#27654 ) Signed-off-by: lizhiyuan <lizhiyuan@moonshot.cn>	2025-10-28 22:56:28 +08:00
Yeshwanth N	71b1c8b667	[Chore]:Extract math and argparse utilities to separate modules (#27188 ) Signed-off-by: Yeshwanth Surya <yeshsurya@gmail.com> Signed-off-by: Yeshwanth N <yeshsurya@gmail.com> Signed-off-by: yeshsurya <yeshsurya@gmail.com>	2025-10-26 04:03:32 -07:00
Jiangyun Zhu	9fce7bee74	[Kernel] Accelerate solve_tril with TMA (#26746 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-10-20 05:39:02 +00:00
Vadim Gimpelson	785d8b6410	[PERF] Qwen3-next MTP speedup (change bool mask indexing to index_select / index_copy to reduce d2h) (#26437 ) Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>	2025-10-16 12:18:31 +08:00
Harry Mellor	8fcaaf6a16	Update `Optional[x]` -> `x \| None` and `Union[x, y]` to `x \| y` (#26633 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-12 09:51:31 -07:00
Vadim Gimpelson	82e64c7a20	[PERF] [Qwen3-next] Speed up gated RMSNorm (#26207 ) Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com> Signed-off-by: Vadim Gimpelson <156319763+vadiklyutiy@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-10-12 08:27:50 +00:00
Harry Mellor	b893d661b1	Fix per file ruff ignores related to simplification (#26259 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-05 20:31:53 +00:00
Harry Mellor	d6953beb91	Convert formatting to use `ruff` instead of `yapf` + `isort` (#26247 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-05 07:06:22 -07:00
Corey Lowman	d747c2ef18	[Perf] Fix jit compiles at runtime of fla gated delta rule (#25432 ) Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-09-24 11:16:13 +08:00
co63oc	e26fef8397	fix some typos (#24616 ) Signed-off-by: co63oc <co63oc@users.noreply.github.com>	2025-09-11 10:48:46 -07:00
Tao He	e93f4cc9e3	Add the support for the qwen3 next model (a hybrid attention model). (#24526 ) Signed-off-by: Tao He <linzhu.ht@alibaba-inc.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-09-11 15:32:09 +08:00
youkaichao	1aa427fdc1	[Kernels] Add Flash Linear Attention Kernels (#24518 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-09-10 00:04:41 +08:00

14 Commits