Ensure metrics are logged regardless of requests (#2347)

2026-06-02 23:51:19 +08:00 · 2024-01-05 15:24:42 +02:00 · 2024-01-05 15:24:42 +02:00 · d0215a58e7
commit d0215a58e7
parent 937e7b7d7c
3 changed files with 28 additions and 1 deletions
--- a/vllm/engine/async_llm_engine.py
+++ b/vllm/engine/async_llm_engine.py
@ -506,3 +506,9 @@ class AsyncLLMEngine:
                     max_log_len=engine_args.max_log_len,
                     start_engine_loop=start_engine_loop)
        return engine
    async def do_log_stats(self) -> None:
        if self.engine_use_ray:
            await self.engine.do_log_stats.remote()
        else:
            self.engine.do_log_stats()
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@ -641,6 +641,9 @@ class LLMEngine:
        return self._process_model_outputs(output, scheduler_outputs)
    def do_log_stats(self) -> None:
        self._log_system_stats(False, 0)
    def _log_system_stats(
        self,
        prompt_run: bool,
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@ -6,6 +6,7 @@ import asyncio
 import codecs
 import json
 import time
 from contextlib import asynccontextmanager
 from http import HTTPStatus
 from typing import AsyncGenerator, Dict, List, Optional, Tuple, Union
@ -38,11 +39,28 @@ TIMEOUT_KEEP_ALIVE = 5  # seconds
 logger = init_logger(__name__)
 served_model = None
-app = fastapi.FastAPI()
+engine_args = None
 engine = None
 response_role = None
@asynccontextmanager
 async def lifespan(app: fastapi.FastAPI):
    async def _force_log():
        while True:
            await asyncio.sleep(10)
            await engine.do_log_stats()
    if not engine_args.disable_log_stats:
        asyncio.create_task(_force_log())
    yield
 app = fastapi.FastAPI(lifespan=lifespan)
 def parse_args():
    parser = argparse.ArgumentParser(
        description="vLLM OpenAI-Compatible RESTful API server.")