[Hardware][CPU] Update intel_extension_for_pytorch 2.7.0 and move to requirements/cpu.txt (#18542)

Signed-off-by: Kay Yan <kay.yan@daocloud.io>
2026-03-16 14:07:13 +08:00 · 2025-05-23 19:38:42 +08:00 · 2025-05-23 19:38:42 +08:00 · 7ab056c273
commit 7ab056c273
parent 6526e05111
3 changed files with 5 additions and 4 deletions
--- a/docker/Dockerfile.cpu
+++ b/docker/Dockerfile.cpu
@ -51,9 +51,6 @@ RUN --mount=type=cache,target=/root/.cache/uv \
    uv pip install --upgrade pip && \
    uv pip install -r requirements/cpu.txt

-RUN --mount=type=cache,target=/root/.cache/uv \
-    uv pip install intel-openmp==2024.2.1 intel_extension_for_pytorch==2.6.0
-
 ENV LD_PRELOAD="/usr/lib/x86_64-linux-gnu/libtcmalloc_minimal.so.4:/opt/venv/lib/libiomp5.so:$LD_PRELOAD"

 RUN echo 'ulimit -c 0' >> ~/.bashrc
--- a/requirements/cpu.txt
+++ b/requirements/cpu.txt
@ -20,3 +20,7 @@ datasets # for benchmark scripts

 # cpu cannot use triton 3.3.0
 triton==3.2.0; platform_machine == "x86_64"
+
+# Intel Extension for PyTorch, only for x86_64 CPUs
+intel-openmp; platform_machine == "x86_64"
+intel_extension_for_pytorch==2.7.0; platform_machine == "x86_64"
--- a/vllm/model_executor/layers/quantization/ipex_quant.py
+++ b/vllm/model_executor/layers/quantization/ipex_quant.py
@ -14,7 +14,7 @@ from vllm.model_executor.layers.quantization.base_config import (
 from vllm.model_executor.layers.quantization.gptq import GPTQLinearMethod
 from vllm.platforms import current_platform

-MIN_IPEX_VERSION = "2.5.0"
+MIN_IPEX_VERSION = "2.7.0"


 class IPEXConfig(QuantizationConfig):