[Bugfix][Frontend] Disable embedding API for chat models (#7504)

Co-authored-by: jack <jack@alex>
2025-12-16 10:06:18 +08:00 · 2024-08-15 00:15:19 +08:00 · 2024-08-15 00:15:19 +08:00 · 67d115db08
commit 67d115db08
parent d3d9cb6e4b
1 changed files with 4 additions and 1 deletions
--- a/vllm/entrypoints/openai/serving_embedding.py
+++ b/vllm/entrypoints/openai/serving_embedding.py
@ -71,7 +71,7 @@ class OpenAIServingEmbedding(OpenAIServing):
                         lora_modules=None,
                         prompt_adapters=None,
                         request_logger=request_logger)
-        self._check_embedding_mode(model_config.embedding_mode)
+        self._enabled = self._check_embedding_mode(model_config.embedding_mode)

    async def create_embedding(
        self,
@ -83,6 +83,8 @@ class OpenAIServingEmbedding(OpenAIServing):
        See https://platform.openai.com/docs/api-reference/embeddings/create
        for the API specification. This API mimics the OpenAI Embedding API.
        """
+        if not self._enabled:
+            return self.create_error_response("Embedding API disabled")
        error_check_ret = await self._check_model(request)
        if error_check_ret is not None:
            return error_check_ret
@ -179,3 +181,4 @@ class OpenAIServingEmbedding(OpenAIServing):
                "embedding_mode is False. Embedding API will not work.")
        else:
            logger.info("Activating the server engine with embedding enabled.")
+        return embedding_mode