create proxy sockets in the proxy function for thread safety

Signed-off-by: clark <panf2333@gmail.com>
2026-05-10 11:41:20 +08:00 · 2025-01-11 23:10:15 +08:00 · 2025-01-11 23:10:15 +08:00 · ee6607332e
commit ee6607332e
parent 7fbf70db57
2 changed files with 26 additions and 22 deletions
--- a/benchmarks/disagg_benchmarks/zmq/test_request.py
+++ b/benchmarks/disagg_benchmarks/zmq/test_request.py
@ -7,7 +7,7 @@ import aiohttp
 # test connect completions we assume prefill and decode are on the same node
 # 1. node:vllm serve facebook/opt-125m --port 7001 --zmq-server-port 7010 \
 #   --chat-template ~/vllm/examples/template_chatglm2.jinja
-# 2. vllm connect --prefill-addr nodeIp:7010 --decode-addr nodeIp:7010
+# 2. vllm connect --prefill-addr 127.0.0.1:7010 --decode-addr 127.0.0.1:7010
 # 3. python test_request.py
 async def test_connect_completions(session):
    try:
@ -68,11 +68,12 @@ def is_json(data):
        return False
 def extract_data(responseText):
    reply = ""
    if responseText == "":
-        return ""
+        return reply
    if is_json(responseText):
        return responseText
-    reply = ""
+
    for data in responseText.split("\n\n"):
        if data.startswith('data: '):
            content = data[6:]
--- a/vllm/entrypoints/launcher.py
+++ b/vllm/entrypoints/launcher.py
@ -78,6 +78,20 @@ async def serve_http(app: FastAPI,
        return server.shutdown()
 def proxy(clients_addr: str, workers_addr: str,
          ctx: zmq.asyncio.Context) -> None:
    in_socket = ctx.socket(zmq.ROUTER)
    in_socket.bind(clients_addr)
    out_socket = ctx.socket(zmq.DEALER)
    out_socket.bind(workers_addr)
    try:
        zmq.proxy(in_socket, out_socket)
    except zmq.ContextTerminated:
        print("proxy terminated")
        in_socket.close()
        out_socket.close()
 async def serve_zmq(arg, zmq_server_port: int, app: FastAPI) -> None:
    """Server routine"""
    logger.info("zmq Server start arg: %s, zmq_server_port: %d", arg,
@ -85,24 +99,15 @@ async def serve_zmq(arg, zmq_server_port: int, app: FastAPI) -> None:
    workers_addr = "inproc://workers"
    clients_addr = f"ipc://127.0.0.1:{zmq_server_port}"
    # Prepare our context and sockets
-    context = zmq.asyncio.Context()
+    context = zmq.asyncio.Context.instance()
    # Socket to talk to clients
    clients = context.socket(zmq.ROUTER)
    clients.bind(clients_addr)
    logger.info("ZMQ Server ROUTER started at %s", clients_addr)
    # Socket to talk to workers
    workers = context.socket(zmq.DEALER)
    workers.bind(workers_addr)
    logger.info("ZMQ Worker DEALER started at %s", workers_addr)
    tasks = [
        asyncio.create_task(worker_routine(workers_addr, app, context, i))
        for i in range(5)
    ]
    proxy_task = asyncio.to_thread(zmq.proxy, clients, workers)
    try:
        tasks = [
            asyncio.create_task(worker_routine(workers_addr, app, context, i))
            for i in range(5)
        ]
        logger.info("zmq tasks: %s", tasks)
        proxy_task = asyncio.to_thread(proxy, clients_addr, workers_addr,
                                       context)
        await asyncio.gather(*tasks, proxy_task)
    except KeyboardInterrupt:
        print("ZMQ Server interrupted")
@ -110,8 +115,6 @@ async def serve_zmq(arg, zmq_server_port: int, app: FastAPI) -> None:
        print("ZMQError:", e)
    finally:
        # We never get here but clean up anyhow
        clients.close()
        workers.close()
        context.destroy(linger=0)